Keandalan dalam Azure VMware Solution

Azure VMware Solution menyediakan cloud privat yang berisi kluster VMware vSphere yang dibangun dari infrastruktur Azure bare-metal yang tersedia khusus. Anda dapat memigrasikan beban kerja dari lingkungan lokal Anda, menyebarkan komputer virtual (VM) baru, dan menggunakan layanan Azure dari cloud privat Anda. Anda dapat menggunakan kombinasi kemampuan VMware dan Azure-native untuk memungkinkan ketersediaan tinggi dan ketahanan beban kerja Anda.

Saat Anda menggunakan Azure, keandalan adalah tanggung jawab bersama. Microsoft menyediakan berbagai kemampuan untuk mendukung ketahanan dan pemulihan. Anda bertanggung jawab untuk memahami cara kerja kemampuan tersebut dalam semua layanan yang Anda gunakan, dan memilih kemampuan yang Anda butuhkan untuk memenuhi tujuan bisnis dan tujuan waktu aktif Anda.

Artikel ini menjelaskan cara membuat Azure VMware Solution tahan terhadap potensi pemadaman dan masalah, termasuk kesalahan sementara, pemadaman zona ketersediaan, dan pemadaman wilayah. Ini juga menjelaskan bagaimana Anda dapat menggunakan cadangan untuk memulihkan dari jenis masalah lain dan menyoroti beberapa informasi utama tentang perjanjian tingkat layanan (SLA) Azure VMware Solution.

Rekomendasi penyebaran produksi

Azure VMware Solution penyebaran memerlukan perencanaan yang cermat di berbagai area dan sering memerlukan beberapa layanan Azure. Untuk informasi selengkapnya, lihat beban kerja Azure VMware Solution di Azure Well-Architected Framework.

Gambaran umum arsitektur keandalan

Azure VMware Solution menggunakan infrastruktur hyperconverged (HCI) dengan kluster VMware vSphere.

Saat menyebarkan Azure VMware Solution, Anda menyebarkan cloud private, yang memiliki satu atau beberapa kluster. Setiap kluster berisi host ESXi yang menyediakan komputasi, penyimpanan melalui SAN virtual (vSAN), dan jaringan melalui VMware NSX. Ada dua generasi Azure VMware Solution:

  • Gen 1 menggunakan perangkat keras bare-metal khusus untuk simpul dan menggunakan pendekatan jaringan tersendiri. Untuk informasi selengkapnya tentang konsep utama, lihat konsep cloud dan kluster privat Azure VMware Solution.

  • Gen 2 menggunakan jenis VM Azure standar dan jaringan virtual Azure. Arsitektur ini menyederhanakan arsitektur jaringan, meningkatkan kecepatan transfer data, mengurangi latensi untuk beban kerja, dan meningkatkan performa saat Anda mengakses layanan Azure lainnya.

Toleransi kesalahan

Azure VMware Solution menyediakan beberapa mekanisme untuk menangani kesalahan di tingkat infrastruktur dan aplikasi:

  • Ketersediaan Tinggi vSphere (HA): vSphere HA memantau host dan VM ESXi. Jika host gagal, sistem secara otomatis memulai ulang VM yang terpengaruh pada host yang sehat. vSphere HA diaktifkan secara otomatis secara default dan mencadangkan kapasitas komputasi dan memori untuk kegagalan node tunggal.

  • Toleransi kesalahan vSAN: Kebijakan penyimpanan vSAN melindungi dari kesalahan sementara tingkat penyimpanan dengan mempertahankan beberapa salinan data di seluruh host. Jika jalur penyimpanan atau disk mengalami masalah sementara, vSAN secara otomatis menangani failover ke jalur penyimpanan yang sehat.

  • Redundansi jaringan: Azure VMware Solution menyediakan jalur jaringan redundan dan beberapa adaptor jaringan VMkernel untuk menangani kesalahan sementara tingkat jaringan.

Ketahanan terhadap kesalahan sementara

Kesalahan sementara adalah kegagalan yang bersifat sementara dan intermiten dalam komponen. Mereka sering terjadi di lingkungan terdistribusi seperti cloud, dan mereka adalah bagian normal dari operasi. Kesalahan sementara memperbaiki diri setelah waktu yang singkat. Penting bahwa aplikasi Anda dapat menangani kesalahan sementara, biasanya dengan mencoba kembali permintaan yang terpengaruh.

Semua aplikasi yang dihosting cloud harus mengikuti panduan penanganan kesalahan sementara Azure saat berkomunikasi dengan API, database, dan komponen lain yang dihosting cloud. Untuk informasi selengkapnya, lihat Rekomendasi untuk menangani kesalahan sementara.

Untuk aplikasi yang berjalan pada VM Azure VMware Solution, terapkan praktik standar untuk menangani kesalahan sementara:

  • Siapkan tetapan percobaan ulang yang sesuai dengan backoff eksponensial.

  • Gunakan pola pemutus sirkuit untuk panggilan layanan eksternal.

  • Pantau kesehatan aplikasi dan terapkan degradasi yang anggun.

  • Rancang aplikasi stateless jika memungkinkan untuk mengurangi dampak restart VM.

Ketahanan terhadap kegagalan zona ketersediaan

Zona ketersediaan adalah grup pusat data yang terpisah secara fisik dalam wilayah Azure. Ketika satu zona gagal, layanan dapat melakukan failover ke salah satu zona yang tersisa.

Azure VMware Solution Gen 1 mendukung zona ketersediaan melalui kluster stretched, yang mendistribusikan host ESXi di dua zona ketersediaan dalam suatu wilayah. Microsoft memilih zona yang akan digunakan. Kluster Anda berjalan dalam konfigurasi aktif-aktif di dua zona, dan vSAN juga mencakup beberapa zona. Anda dapat menunjuk apakah setiap beban kerja disebarkan ke satu atau dua zona.

Simpul saksi secara otomatis disebarkan ke zona ketersediaan ketiga untuk menyediakan kuorum untuk skenario split-brain. Microsoft mengelola simpul saksi secara otomatis.

Diagram yang menunjukkan kluster vSAN terkelola yang direntangkan yang mencakup dua zona ketersediaan dan simpul saksi di zona ketersediaan ketiga.

Di bagian atas diagram, legenda menunjukkan bahwa logo Microsoft Azure mewakili platform Azure, ikon pin lokasi berlabel zona ketersediaan ganda di wilayah Azure mewakili dua zona ketersediaan, dan ikon kunci mewakili satu langganan Azure. Diagram dibagi menjadi tiga bagian utama. Di sebelah kiri, zona ketersediaan satu diberi label sebagai situs pilihan. Di sebelah kanan, zona ketersediaan dua diberi label sebagai situs sekunder. Di bagian bawah, zona ketersediaan tiga diberi label sebagai situs saksi. Kotak yang mewakili Azure VMware Solution cloud privat A mencakup zona ketersediaan satu dan dua. Dalam zona ketersediaan satu, empat komponen diatur secara horizontal: ikon rak server mewakili host ESXi Azure bare-metal, ikon lapisan bertumpuk mewakili domain kesalahan pilihan penyimpanan data VMware vSAN, ikon server mewakili server VMware vCenter Server, dan ikon topologi jaringan mewakili VMware NSX. Label datastore vSAN terbentang secara horizontal melintasi kedua zona dan menghubungkan domain kesalahan pilihan dari datastore VMware vSAN di zona ketersediaan satu ke domain kesalahan sekunder dari datastore VMware vSAN di zona ketersediaan dua. Bagian bawah zona ketersediaan satu berisi tiga komponen yang diatur secara horizontal. Ikon lencana melingkar mewakili VMware NSX Edge A. Ikon jaringan cloud mewakili VMware HCX. Ikon monitor mewakili aplikasi Gold SLA. Dalam zona ketersediaan dua, dua baris komponen diatur secara horizontal. Baris atas mencakup Azure host ESXi bare-metal dan domain kesalahan sekunder penyimpanan data VMware vSAN. Baris bawah berisi VMware NSX Edge B, aplikasi Gold SLA dalam kotak bergaris putus-putus, ikon monitor yang mewakili aplikasi Silver SLA, dan ikon monitor yang mewakili aplikasi Bronze SLA. Replikasi sinkron berbasis kebijakan dengan garis putus-putus berlabel menghubungkan aplikasi Gold SLA di zona ketersediaan satu ke kotak aplikasi Gold SLA di zona ketersediaan dua. Baris ini menunjukkan sinkronisasi atau replikasi antara aplikasi ini di seluruh zona. Garis solid menghubungkan zona ketersediaan satu dan zona ketersediaan dua ke kotak berlabel zona ketersediaan tiga - situs bukti di bagian bawah diagram. Zona ketersediaan tiga berisi perangkat VMware vSAN witness.

Kluster standar adalah kluster yang tidak tersebar di antara zona. Dalam kluster standar, kluster dan semua host ESXi-nya dianggap nonzonal atau regional. Kluster nonzonal mungkin ditempatkan di zona ketersediaan apa pun di wilayah tersebut, dan Microsoft memilih zona tersebut. Jika zona ketersediaan di wilayah tersebut mengalami pemadaman, kluster dan host nonzonal mungkin berada di zona yang terpengaruh dan mungkin mengalami downtime.

Azure VMware Solution Gen 2 mendukung penyebaran cloud privat zonal. Saat Anda menyiapkan cloud privat zona, setiap klusternya dan semua host ESXi mereka disebarkan ke dalam satu zona ketersediaan yang Anda pilih.

Cloud privat zonal tidak melindungi terhadap kegagalan dalam zona ketersediaan. Anda dapat menyebarkan beberapa cloud privat ke zona ketersediaan terpisah untuk ketahanan yang lebih tinggi, tetapi Anda bertanggung jawab untuk menyebarkan dan mengonfigurasi setiap cloud privat secara independen.

Jika Anda tidak memilih zona ketersediaan, cloud privat Anda, klusternya, dan semua host ESXi mereka dianggap nonzonal atau regional. Kluster nonzonal mungkin ditempatkan di zona ketersediaan apa pun di wilayah tersebut, dan Microsoft memilih zona tersebut. Jika zona ketersediaan di wilayah tersebut mengalami pemadaman, kluster nonzonal di zona yang terpengaruh mungkin mengalami waktu henti.

Untuk informasi selengkapnya tentang dukungan zona ketersediaan untuk generasi lain, pilih generasi yang sesuai di awal artikel ini.

Persyaratan

  • Region support: Stretched clusters hanya tersedia di wilayah Azure yang mendukung konfigurasi kluster yang direntangkan. Periksa zona ketersediaan wilayah Azure untuk menghosting tabel pemetaan jenis untuk dukungan wilayah saat ini.

  • Host minimum: Sebarkan minimal enam host di dua zona ketersediaan (tiga host untuk setiap zona) untuk mengaktifkan konfigurasi kluster yang direntangkan. Saat Anda menskalakan masuk atau keluar, Anda harus menskalakan berpasangan sehingga setiap zona memiliki jumlah host yang sama.

  • SKU Host: Jenis host AV36, AV36P, dan AV52 mendukung kluster yang direntangkan. SKU AV64 tidak mendukung kluster yang direntangkan.

Pertimbangan

Setiap zona ketersediaan di suatu wilayah dapat mendukung jenis host tertentu. Untuk daftar terperinci jenis host yang tersedia di setiap zona, lihat tabel pemetaan jenis host dari zona ketersediaan wilayah Azure.

Biaya

Anda dikenakan biaya untuk setiap simpul dalam kluster, terlepas dari konfigurasi zona ketersediaan kluster. Untuk informasi harga terperinci, lihat harga Azure VMware Solution.

Mengonfigurasi dukungan zona ketersediaan

  • Deploy kluster baru: Saat Anda membuat Azure VMware Solution cloud privat baru di wilayah yang didukung, Anda dapat mengaturnya sebagai kluster yang diperluas selama penyebaran. Konfigurasi ini mendistribusikan host di dua zona ketersediaan secara otomatis. Untuk informasi lebih lanjut, lihat Menyebarkan kluster vSAN yang direntangkan.

  • Kluster yang ada: Anda tidak dapat mengonversi kluster standar ke kluster yang direntangkan, dan Anda tidak dapat mengonversi kluster yang direntangkan ke kluster standar. Sebagai gantinya, Anda perlu menyebarkan kluster baru dan memigrasikan beban kerja Anda.

  • Menyebarkan kluster baru: Saat Anda membuat cloud privat Azure VMware Solution baru di wilayah yang didukung, Anda dapat memilih zona ketersediaannya.

  • Kluster yang ada: Anda tidak dapat mengubah konfigurasi zona ketersediaan kluster yang ada. Sebagai gantinya, Anda perlu menyebarkan kluster baru dan memigrasikan beban kerja Anda.

Perilaku ketika semua zona sehat

Bagian ini menjelaskan apa yang dapat diharapkan ketika kluster Anda diperluas dan semua zona ketersediaan beroperasi.

  • Operasi lintas zona: VM dapat berjalan pada host di salah satu zona ketersediaan. Anda dapat mengontrol penempatan VM dengan menggunakan afinitas vSphere Distributed Resource Scheduler (DRS) dan aturan anti-afinitas untuk mengoptimalkan persyaratan performa atau ketersediaan.

  • Replikasi data lintas zona: vSAN mereplikasi data secara sinkron di seluruh zona ketersediaan. Kedua zona mengonfirmasi setiap operasi tulis sebelum selesai untuk memastikan integritas data yang konsisten.

Bagian ini menjelaskan apa yang diharapkan ketika kluster Anda disebarkan di cloud privat zonal, dan semua zona ketersediaan beroperasi.

  • Operasi lintas zona: VM berjalan pada host dalam zona ketersediaan kluster.

  • Replikasi data lintas zona: Tidak ada data yang direplikasi ke zona lain.

Perilaku selama kegagalan zona

Bagian ini menjelaskan apa yang diharapkan ketika kluster Anda diperluas dan terjadi gangguan pada zona ketersediaan.

  • Deteksi dan respons: Azure VMware Solution mengelola respons tingkat infrastruktur terhadap kegagalan zona. vSphere HA secara otomatis mendeteksi kegagalan zona dan memulai prosedur mulai ulang VM jika perlu.
  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Permintaan aktif: Setiap VM yang berjalan di wilayah ketersediaan yang gagal dimulai ulang pada host di wilayah ketersediaan yang sehat. Permintaan aktif dan koneksi ke VM yang terpengaruh dihentikan, dan klien bertanggung jawab untuk mencobanya kembali.

  • Waktu henti yang diharapkan: Waktu untuk memulai ulang VM yang gagal di zona sehat biasanya beberapa menit, tergantung pada konfigurasi VM dan prosedur startup. Kluster yang diperluas tetap beroperasi dengan kapasitas yang berkurang.

    Jika zona ketersediaan yang gagal berisi simpul saksi, saksi menjadi tidak dapat dijangkau. Selama replika data yang memadai tetap tersedia, host data dan beban kerja yang berjalan terus beroperasi tanpa kehilangan data segera. Namun, vSAN kehilangan kesadaran akan kuorum dalam keadaan ini. Kehilangan kuorum mencegahnya membuat keputusan penempatan dan pemulihan dengan aman. Ini juga memblokir operasi tertentu, seperti menyalakan VM setelah terjadi kegagalan, penyeimbangan ulang, dan perbaikan.

  • Kehilangan data yang diharapkan: Karena vSAN menggunakan replikasi sinkron antar zona, tidak ada kehilangan data yang diharapkan selama kegagalan zona.

  • Redistribusi: vSphere DRS secara otomatis mendistribusikan ulang beban kerja VM ke zona ketersediaan yang sehat. Perutean lalu lintas jaringan melalui VMware NSX beradaptasi dengan penempatan VM baru secara otomatis.

Bagian ini menjelaskan apa yang diharapkan ketika kluster Anda disebarkan di cloud privat zonal, dan terjadi pemadaman zona ketersediaan.

  • Deteksi dan respons: Anda perlu mendeteksi hilangnya zona ketersediaan. Jika perlu, Anda dapat memulai failover ke kluster sekunder yang Anda buat sebelumnya di zona ketersediaan lain.
  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Permintaan aktif: Permintaan aktif dan koneksi ke VM yang terpengaruh dihentikan, dan klien bertanggung jawab untuk mencobanya kembali.

  • Waktu henti yang diharapkan: Ketika zona tidak tersedia, kluster Anda dan beban kerjanya tidak tersedia hingga zona ketersediaan pulih.

  • Kehilangan data yang diharapkan: Data di zona yang terpengaruh tidak tersedia hingga zona pulih.

  • Redistribusi: Anda bertanggung jawab untuk mengalihkan lalu lintas ke kluster lain di zona sehat, jika perlu.

Pemulihan Zona

Ketika zona ketersediaan pulih, vSphere DRS dapat secara opsional mendistribusikan ulang VM kembali ke zona yang dipulihkan berdasarkan konfigurasi DRS dan aturan afinitas Anda. Anda juga dapat mengontrol penempatan VM secara manual dengan menggunakan operasi vMotion.

Ketika zona ketersediaan pulih, kluster dan host di zona tersedia lagi. Anda bertanggung jawab atas prosedur pemulihan zona dan sinkronisasi data apa pun yang diperlukan beban kerja Anda.

Uji kegagalan zona

Untuk mempersiapkan kegagalan zona infrastruktur, uji ketahanan aplikasi Anda terhadap restart VM dan perubahan jalur komunikasi jaringan, terutama ketika Anda menggunakan kluster terdistribusi atau menyebarkan aplikasi di seluruh kluster terpisah di zona yang berbeda.

Karena Azure VMware Solution mengelola respons infrastruktur terhadap kegagalan zona, Anda terutama perlu menguji respons aplikasi Anda terhadap mulai ulang VM.

Anda bertanggung jawab atas respons infrastruktur terhadap kegagalan zona, seperti failover ke kluster lain di zona atau wilayah yang berbeda. Pastikan Anda menguji proses respons Anda secara menyeluruh.

Ketahanan terhadap kegagalan di seluruh wilayah

Setiap kluster Azure VMware Solution disebarkan dalam satu wilayah Azure. Jika wilayah menjadi tidak tersedia, cloud privat Anda dan semua sumber daya di dalamnya menjadi tidak tersedia.

Namun, Anda juga dapat merancang solusi multi-wilayah kustom yang menggabungkan pendekatan yang berbeda atau berintegrasi dengan infrastruktur yang ada untuk memenuhi persyaratan bisnis dan tujuan pemulihan spesifik Anda.

Solusi multi-wilayah kustom untuk ketahanan

Untuk mencapai ketahanan multi-wilayah dengan Azure VMware Solution, Anda perlu menyebarkan cloud privat terpisah di beberapa wilayah dan menerapkan failover dan solusi pemulihan bencana (DR) lainnya.

Berbagai opsi mendukung persyaratan ketahanan yang berbeda. Untuk informasi selengkapnya, lihat solusi pemulihan bencana untuk komputer virtual Azure VMware Solution.

Pencadangan dan pemulihan

Azure VMware Solution secara otomatis mencadangkan komponen manajemen, seperti vCenter Server, NSX Manager, dan HCX Manager jika diaktifkan. Untuk memulihkan komponen dari cadangan manajemen ini, buat permintaan Azure support.

Untuk beban kerja VM Anda, Azure VMware Solution mendukung beberapa pendekatan pencadangan. Untuk informasi selengkapnya, lihat Solusi Backup untuk VM Azure VMware Solution.

Ketahanan terhadap pemeliharaan layanan

Azure melakukan pemeliharaan platform otomatis untuk menerapkan pembaruan keamanan, menyebarkan fitur baru, dan meningkatkan keandalan layanan.

Untuk mempelajari bagaimana pemeliharaan memengaruhi komponen Azure VMware Solution, dan untuk memahami komponen yang harus Anda pelihara versus komponen yang dipelihara oleh Microsoft, lihat pemeliharaan private cloud Azure VMware Solution.

Anda dapat menyiapkan jendela pemeliharaan untuk kluster Anda untuk mengurangi kemungkinan pemeliharaan memengaruhi beban kerja produksi Anda. Untuk informasi selengkapnya, lihat Rencanakan pemeliharaan layanan mandiri untuk Azure VMware Solution.

Perjanjian tingkat layanan

Perjanjian tingkat layanan (SLA) untuk layanan Azure menjelaskan ketersediaan yang diharapkan dari setiap layanan dan kondisi yang harus dipenuhi solusi Anda untuk mencapai harapan ketersediaan tersebut. Untuk informasi selengkapnya, lihat SLA untuk layanan daring.

Azure VMware Solution menyediakan SLA ketersediaan yang berbeda untuk infrastruktur beban kerja dan untuk operasi manajemen.

Kluster yang Anda siapkan sebagai kluster yang diperluas memiliki SLA ketersediaan infrastruktur beban kerja yang lebih tinggi.

Namun, untuk memenuhi syarat untuk SLA ketersediaan, Anda harus menyiapkan kluster Anda dengan cara tertentu. Untuk informasi selengkapnya, lihat teks SLA.