Bagikan melalui


Pemulihan dalam wilayah menggunakan zona ketersediaan dan pemulihan bencana geografis di seluruh wilayah (Azure Event Grid)

Artikel ini menjelaskan bagaimana Azure Event Grid mendukung pemulihan otomatis dalam wilayah definisi dan data sumber daya Event Grid Anda saat kegagalan terjadi di wilayah yang memiliki zona ketersediaan. Ini juga menjelaskan bagaimana Event Grid mendukung pemulihan otomatis definisi sumber daya Event Grid (tidak ada data) ke wilayah lain ketika kegagalan terjadi di wilayah yang memiliki wilayah berpasangan.

Pemulihan dalam wilayah menggunakan zona ketersediaan

Zona ketersediaan Azure adalah lokasi terpisah secara fisik dalam setiap wilayah Azure yang toleran terhadap kegagalan lokal. Mereka terhubung oleh jaringan berkinerja tinggi dengan latensi pulang pergi kurang dari 2 milidetik. Setiap zona ketersediaan terdiri dari satu atau beberapa pusat data yang dilengkapi dengan infrastruktur daya, pendinginan, dan jaringan independen. Jika satu zona terpengaruh, layanan regional, kapasitas, dan ketersediaan tinggi didukung oleh dua zona yang tersisa. Untuk informasi selengkapnya tentang zona ketersediaan, lihat Wilayah dan zona ketersediaan. Dalam artikel ini, Anda juga dapat melihat daftar wilayah yang memiliki zona ketersediaan.

Definisi sumber daya Event Grid untuk topik, topik sistem, domain, dan langganan peristiwa dan data peristiwa secara otomatis direplikasi di tiga zona ketersediaan (jika tersedia) di wilayah tersebut. Ketika ada kegagalan di salah satu zona ketersediaan, sumber daya Event Grid secara otomatis failover ke zona ketersediaan lain tanpa intervensi manusia. Saat ini, Anda tidak dapat mengontrol (mengaktifkan atau menonaktifkan) fitur ini. Ketika wilayah yang ada mulai mendukung zona ketersediaan, sumber daya Event Grid yang ada akan secara otomatis gagal untuk memanfaatkan fitur ini. Tidak perlu tindakan pelanggan.

Diagram yang menunjukkan zona ketersediaan yang melindungi dari bencana lokal dan bencana geografi regional atau besar dengan menggunakan wilayah lain.

Pemulihan bencana geografis di seluruh wilayah

Saat wilayah Azure mengalami pemadaman yang berkepanjangan, Anda mungkin tertarik dengan opsi failover ke wilayah alternatif untuk kelangsungan bisnis. Banyak wilayah Azure memiliki pasangan geografis, dan beberapa tidak. Untuk daftar wilayah yang memiliki wilayah berpasangan, lihat Pasangan replikasi lintas wilayah Azure untuk semua geografi.

Untuk wilayah dengan pasangan geografis, Event Grid menawarkan kemampuan untuk gagal atas lalu lintas penerbitan ke wilayah yang dipasangkan untuk topik kustom, topik sistem, dan domain. Di balik layar, Event Grid secara otomatis menyinkronkan definisi sumber daya topik, topik sistem, domain, dan langganan peristiwa ke wilayah yang dipasangkan. Namun, data peristiwa tidak direplikasi ke wilayah yang dipasangkan. Dalam status normal, peristiwa disimpan di wilayah yang Anda pilih untuk sumber daya tersebut. Ketika ada pemadaman wilayah dan Microsoft memulai failover, peristiwa baru mulai mengalir ke wilayah yang dipasangkan secara geografis dan dikirim dari sana tanpa intervensi dari Anda. Peristiwa yang diterbitkan dan diterima di wilayah asli dikirim dari sana setelah pemadaman dimitigasi.

Failover yang diinisiasi Microsoft dilakukan oleh Microsoft dalam situasi yang jarang terjadi untuk melakukan fail over sumber daya Event Grid dari wilayah yang terpengaruh ke wilayah yang dipasangkan secara geografis yang terkait. Microsoft berhak menentukan kapan opsi ini akan dilakukan. Mekanisme ini tidak melibatkan persetujuan pengguna sebelum lalu lintas pengguna dilakukan fail over.

Anda dapat mengaktifkan atau menonaktifkan fungsionalitas ini dengan memperbarui konfigurasi untuk topik atau domain Anda. Pilih opsi Lintas Geo (default) untuk mengaktifkan failover yang dimulai Microsoft dan Regional untuk menonaktifkannya. Untuk langkah-langkah terperinci untuk mengonfigurasi pengaturan ini, lihat Mengonfigurasi residensi data. Jika Anda memilih regional, tidak ada data apa pun yang direplikasi ke wilayah lain oleh Microsoft, dan Anda dapat menentukan rencana pemulihan bencana Anda sendiri. Untuk informasi selengkapnya, lihat Bangun rencana pemulihan bencana Anda sendiri untuk topik dan domain Azure Event Grid.

Cuplikan layar memperlihatkan halaman Konfigurasi untuk topik kustom Event Grid.

Berikut adalah beberapa alasan mengapa Anda ingin menonaktifkan fitur failover yang dimulai Microsoft:

  • Failover yang dimulai Microsoft dilakukan berdasarkan upaya terbaik.
  • Beberapa pasangan geografis tidak memenuhi persyaratan residensi data organisasi Anda.

Dalam kasus seperti itu, opsi yang direkomendasikan adalah membangun rencana pemulihan bencana Anda sendiri untuk topik dan domain Azure Event Grid. Meskipun opsi ini membutuhkan sedikit lebih banyak upaya, opsi ini memungkinkan failover yang lebih cepat, dan Anda memegang kendali untuk memilih wilayah sekunder. Jika Anda ingin menerapkan pemulihan bencana sisi klien untuk topik Azure Event Grid, lihat Membangun pemulihan bencana sisi klien Anda sendiri untuk topik Azure Event Grid.

RTO dan RPO

Pemulihan bencana diukur dengan dua metrik:

  • Tujuan Titik Pemulihan (RPO): menit atau jam data yang mungkin hilang.
  • Tujuan Waktu Pemulihan (RTO): menit atau jam layanan mungkin tidak berfungsi.

Failover otomatis Event Grid memiliki RPO dan RTO yang berbeda untuk metadata Anda (topik, domain, langganan peristiwa) dan data (peristiwa). Jika Anda memerlukan spesifikasi yang berbeda dari yang berikut ini, Anda masih dapat menerapkan failover sisi klien Anda sendiri menggunakan API kesehatan topik.

Tujuan titik pemulihan (RPO)

  • Metadata RPO: nol menit. Untuk sumber daya yang berlaku, saat sumber daya dibuat/diperbarui/dihapus, definisi sumber daya direplikasi secara sinkron ke pasangan geografis. Ketika failover terjadi, tidak ada metadata yang hilang.

  • RPO Data: Saat failover terjadi, data baru diproses dari wilayah yang dipasangkan. Segera setelah pemadaman dimitigasi untuk wilayah yang terkena dampak, peristiwa yang tidak diolah dikirim dari sana. Jika pemulihan wilayah memerlukan waktu lebih lama daripada nilai time-to-live yang ditetapkan pada peristiwa, data bisa dihilangkan. Untuk mengurangi kehilangan data ini, kami sarankan Anda menyiapkan tujuan surat mati untuk langganan peristiwa. Jika wilayah yang terpengaruh hilang dan tidak dapat dipulihkan, akan ada beberapa kehilangan data. Dalam skenario terbaik, pelanggan mengikuti tingkat penerbitan dan hanya beberapa detik data yang hilang. Skenario terburuk adalah ketika pelanggan tidak secara aktif memproses peristiwa dan dengan waktu maksimum untuk hidup 24 jam, kehilangan data bisa hingga 24 jam.

Tujuan waktu pemulihan (RTO)

  • Metadata RTO: Pengambilan keputusan failover didasarkan pada faktor-faktor seperti kapasitas yang tersedia di wilayah berpasangan dan dapat bertahan dalam kisaran 60 menit atau lebih. Setelah failover dimulai, dalam waktu 5 menit, Event Grid mulai menerima panggilan buat/perbarui/hapus untuk topik dan langganan.

  • Data RTO: Sama seperti informasi di atas.

Penting

  • Jika pemulihan bencana sisi server, jika wilayah yang dipasangkan tidak memiliki kapasitas tambahan untuk mengambil lalu lintas tambahan, Event Grid tidak dapat memulai failover. Pemulihan dilakukan berdasarkan upaya terbaik.
  • Tidak ada biaya untuk menggunakan fitur ini.
  • Pemulihan bencana geografis tidak didukung untuk namespace mitra dan topik mitra.

Langkah berikutnya

Lihat Membangun pemulihan bencana sisi klien Anda sendiri untuk topik Azure Event Grid.