Keandalan dalam Azure Disk Storage

Azure Disk Storage menyediakan disk terkelola untuk komputer virtual (VM) Azure. Dibangun untuk beban kerja yang penting bagi bisnis, ini memastikan keandalan dan ketersediaan tingkat perusahaan. Data Anda secara otomatis direplikasi untuk melindungi dari kegagalan perangkat keras, dengan beberapa opsi redundansi untuk memenuhi persyaratan durabilitas Anda.

Saat Anda menggunakan Azure, keandalan adalah tanggung jawab bersama. Microsoft menyediakan berbagai kemampuan untuk mendukung ketahanan dan pemulihan. Anda bertanggung jawab untuk memahami cara kerja kemampuan tersebut dalam semua layanan yang Anda gunakan, dan memilih kemampuan yang Anda butuhkan untuk memenuhi tujuan bisnis dan tujuan waktu aktif Anda.

Artikel ini menjelaskan cara membuat Azure Disk Storage tahan terhadap berbagai potensi pemadaman dan masalah, termasuk kesalahan sementara, kegagalan zona ketersediaan, dan kegagalan di seluruh wilayah. Ini juga menjelaskan opsi pencadangan dan pemulihan, dan menyoroti informasi utama tentang perjanjian tingkat layanan (SLA) Azure Disk Storage.

Penting

Saat mempertimbangkan keandalan disk, Anda juga perlu mempertimbangkan keandalan VM, infrastruktur jaringan, dan aplikasi yang berjalan pada VM Anda. Meningkatkan ketahanan disk saja mungkin memiliki dampak terbatas jika komponen lain tidak sama-sama tangguh. Bergantung pada persyaratan ketahanan Anda, Anda mungkin perlu membuat perubahan konfigurasi di beberapa area.

Rekomendasi penyebaran produksi

Azure Well-Architected Framework memberikan rekomendasi untuk keandalan, performa, keamanan, biaya, dan operasi. Untuk memahami bagaimana area ini saling memengaruhi dan berkontribusi pada solusi Azure Disk Storage yang andal, lihat praktik terbaik Architecture untuk Azure Disk Storage.

Gambaran umum arsitektur keandalan

Setiap VM menggunakan disk untuk tujuan yang berbeda:

  • Disk OS: Satu disk OS menjalankan sistem operasi. Secara default, ini adalah disk terkelola yang menyimpan data. Anda juga dapat menggunakan disk OS ephemeral, yang tidak dikelola. Hindari menggunakan disk OS untuk menyimpan aplikasi atau data.
  • Disk data: Nol atau lebih disk terkelola untuk menyimpan aplikasi dan data.
  • Disk sementara: Disk yang tidak persisten dan tidak dikelola yang disertakan dengan setiap VM.

Panduan ini secara khusus berfokus pada disk terkelola, yang mempertahankan data dengan andal. Untuk mempelajari selengkapnya tentang berbagai peran disk, lihat Peran disk.

Disk terkelola dirancang untuk ketersediaan VM sebesar 99,999% dan memberikan tingkat ketahanan setidaknya 99,999999999% (11 angka 9). Saat Anda menggunakan disk terkelola, data Anda direplikasi tiga kali. Jika salah satu dari tiga salinan menjadi tidak tersedia, Azure secara otomatis membuat salinan data baru di latar belakang. Proses ini memastikan persistensi data Anda dan ketahanan yang tinggi terhadap kesalahan.

Secara default, disk terkelola menggunakan penyimpanan redundan lokal (LRS). LRS menyimpan tiga salinan data disk Anda dalam satu pusat data, yang melindungi dari kegagalan perangkat keras seperti masalah drive atau rak server.

Meskipun LRS melindungi disk Anda dari rak server dan kegagalan drive, LRS tidak memperhitungkan bencana seperti kebakaran atau banjir dalam pusat data. Untuk tingkat perlindungan yang lebih tinggi, gunakan penyimpanan zona redundan (ZRS), yang mereplikasi disk Anda di beberapa zona ketersediaan.

Untuk aplikasi yang berjalan pada beberapa VM, beberapa VM memiliki SLA ketersediaan tertinggi saat didistribusikan di beberapa zona ketersediaan. Untuk VM dan disk yang didistribusikan di beberapa zona ketersediaan, disk dan VM induknya masing-masing dikolokasi di zona yang sama, yang mencegah beberapa VM turun bahkan jika seluruh zona mengalami pemadaman.

Saat zona tidak tersedia atau beban kerja Anda sensitif terhadap latensi antar-VM, sebarkan VM dan disk di beberapa domain kesalahan. Domain kesalahan tidak menyediakan redundansi zona, tetapi mengurangi dampak kegagalan perangkat keras, pemadaman jaringan, atau gangguan daya. Ini mencegah beberapa VM mengalami kegagalan jika satu domain kesalahan penyimpanan mengalami masalah.

Ketahanan terhadap kesalahan sementara

Kesalahan sementara adalah kegagalan yang bersifat sementara dan intermiten dalam komponen. Mereka sering terjadi di lingkungan terdistribusi seperti cloud, dan mereka adalah bagian normal dari operasi. Kesalahan sementara memperbaiki diri setelah waktu yang singkat. Penting bahwa aplikasi Anda dapat menangani kesalahan sementara, biasanya dengan mencoba kembali permintaan yang terpengaruh.

Semua aplikasi yang dihosting cloud harus mengikuti panduan penanganan kesalahan sementara Azure saat berkomunikasi dengan API, database, dan komponen lain yang dihosting cloud. Untuk informasi selengkapnya, lihat Rekomendasi untuk menangani kesalahan sementara.

Disk terkelola secara otomatis pulih dari kesalahan sementara dalam infrastruktur Azure.

Ketahanan terhadap kegagalan zona ketersediaan

Zona ketersediaan adalah grup pusat data yang terpisah secara fisik dalam wilayah Azure. Ketika satu zona gagal, layanan dapat melakukan failover ke salah satu zona yang tersisa.

Ada dua cara untuk menggunakan zona ketersediaan dengan disk terkelola:

  • Anda dapat menyebarkan disk ZRS, yang terletak di tiga zona ketersediaan di suatu wilayah. Untuk keandalan terbaik, kami sarankan Anda menggunakan disk ZRS karena disk ZRS memberikan ketahanan zona otomatis.
  • Anda dapat menyebarkan disk LRS zonal, yang hanya terletak di satu zona. Saat Anda menggunakan disk LRS zonal, Anda bertanggung jawab untuk mengonfigurasi beban kerja Agar tahan terhadap pemadaman zona. Anda mencapai ketahanan ini dengan menerapkan beberapa VM dan disk serta menempatkannya di berbagai zona ketersediaan.

Jika Anda tidak mengonfigurasi dukungan zona ketersediaan, disk Anda nonzonal atau regional dan mungkin ditempatkan di zona ketersediaan apa pun di wilayah tersebut. Disk ini dianggap LRS karena direplikasi dalam wilayah tersebut.

Disk yang redundan zona

ZRS secara sinkron mereplikasi data Anda di tiga zona ketersediaan dalam suatu wilayah. Saat Anda mengaktifkan redundansi zona untuk disk terkelola, Azure memastikan bahwa kegagalan di satu zona tidak memengaruhi ketersediaan data.

Diagram disk zona-redundan. Replikanya tersebar di tiga zona ketersediaan di wilayah tersebut.

Disk ZRS dapat dibagikan antar-VM untuk meningkatkan ketersediaan aplikasi berkluster atau terdistribusi seperti SQL Server FCI, SAP ASCS/SCS, atau GFS2. Anda dapat melampirkan disk ZRS bersama ke VM primer dan sekunder di zona yang berbeda, memanfaatkan kedua disk ZRS dan VM yang terdistribusi di beberapa zona ketersediaan. Jika zona utama gagal, Anda dapat dengan cepat melakukan failover ke VM sekunder dengan menggunakan reservasi persisten SCSI.

Jika disk ZRS dilampirkan sebagai disk data ke satu VM di zona yang mengalami gangguan, Anda dapat memaksa melepaskan disk dari VM yang gagal dan memasangnya ke VM lain.

Persyaratan

  • Dukungan wilayah: Untuk daftar wilayah yang mendukung disk terkelola ZRS, lihat Opsi redundansi untuk disk terkelola.

  • Jenis disk: Disk redundan zona didukung dengan SSD Premium dan disk terkelola SSD Standar. ZRS tidak didukung dengan disk terkelola Premium SSD v2, Ultra Disk, atau HDD Standar.

Biaya

ZRS dikenakan biaya yang lebih tinggi daripada LRS karena overhead replikasi tambahan dan infrastruktur yang diperlukan untuk mempertahankan data di beberapa zona. Perbedaan biaya yang tepat bervariasi menurut wilayah dan jenis disk. Untuk informasi harga terperinci, lihat harga disk terkelola Azure.

Mengonfigurasi dukungan zona ketersediaan

  • Buat disk ZRS baru: Untuk membuat disk terkelola ZRS baru, lihat Tutorial - Mengelola disk Azure dengan Azure CLI untuk VM Linux, atau Tutorial: Mengelola disk dengan Azure PowerShell untuk VM Windows. Pilih tingkat disk ZRS selama pembuatan disk.

    Anda bertanggung jawab untuk melampirkan disk Anda ke VM, termasuk mengonfigurasi disk bersama pada beberapa VM di zona yang berbeda jika sesuai untuk beban kerja Anda.

  • Ubah disk yang ada untuk menggunakan ZRS: Anda dapat mengonversi disk nonzonal (regional) yang ada ke ZRS.

    Meskipun Anda tidak dapat mengonversi disk LRS zonal ke ZRS, Anda dapat membuat disk ZRS baru dari rekam jepret. Lihat Mengonversi disk dari LRS ke ZRS untuk prosedur dan persyaratan migrasi langkah demi langkah.

  • Nonaktifkan dukungan zona ketersediaan: Anda tidak dapat mengubah konfigurasi zona ketersediaan disk ZRS yang ada. Sebagai gantinya, Anda perlu membuat disk baru dengan konfigurasi baru dengan menggunakan rekam jepret dari disk sebelumnya, lalu menghapus yang lama.

Perilaku ketika semua zona sehat

Bagian ini menjelaskan hal-hal yang dapat Anda harapkan saat mengonfigurasi disk terkelola untuk ZRS, dan semua zona ketersediaan berfungsi.

  • Cross-zone operation: Azure secara otomatis mengelola rute lalu lintas antar zona ketersediaan saat Anda menggunakan VM dengan disk redundansi zona. Selama operasi normal, permintaan didistribusikan di seluruh zona secara transparan.

  • Replikasi data lintas zona: Disk ZRS mereplikasi setiap tulis secara sinkron di beberapa zona ketersediaan di wilayah tersebut. Operasi tulis selesai hanya setelah data disimpan dalam kluster di beberapa zona. Pendekatan ini memberikan konsistensi yang kuat dan ketersediaan tinggi, tetapi dapat memperkenalkan latensi tulis yang sedikit lebih tinggi dibandingkan dengan disk LRS.

Perilaku selama kegagalan zona

Bagian ini menjelaskan apa yang diharapkan ketika Anda mengonfigurasi disk terkelola untuk ZRS, dan ada pemadaman di salah satu zona ketersediaan.

  • Deteksi dan respons: Pemadaman zona mungkin hanya memengaruhi disk, hanya VM, atau keduanya. Perilaku tergantung pada apakah pemadaman zona memengaruhi VM yang terpasang pada disk.

    Jika VM tetap sehat tetapi disk dipengaruhi oleh pemadaman, VM Anda terus beroperasi. Microsoft secara otomatis mengalihkan operasi disk untuk memproses data di zona ketersediaan yang sehat, dan Anda tidak perlu melakukan apa pun.

    Jika VM tidak berfungsi, Anda perlu mengalihkan beban kerja Anda ke VM lain di zona ketersediaan yang berbeda.

    • Disk bersama: Jika Anda sudah membuat VM sekunder di zona yang berbeda dan mengonfigurasi disk bersama, disk tersedia untuk digunakan VM sekunder. Tidak diperlukan perubahan konfigurasi.

    • Disk yang tidak dibagikan: Anda dapat mencopot paksa disk dari VM yang gagal lalu melampirkannya ke VM di zona sehat. Untuk melakukan pelepasan paksa:

  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Kehilangan data yang diharapkan: Tidak ada kehilangan data yang terjadi selama kegagalan zona.

  • Waktu henti yang diharapkan: Saat disk Anda dibagikan antara beberapa VM, tidak ada waktu henti yang diharapkan.

  • Redistribution: Azure secara otomatis mengalihkan lalu lintas ke salinan lain disk Anda yang berada di zona sehat.

Pemulihan Zona

Azure secara otomatis mendeteksi kapan zona yang gagal sebelumnya sehat dan memulihkan sinkronisasi data ke zona yang dipulihkan.

Disk LRS Zonal

Disk LRS Zonal berada di zona ketersediaan tertentu dan hanya dapat dipasang ke VM di zona tersebut. Semua salinan data disk berada di zona yang sama. Satu disk LRS zonal dan VM tidak memberikan ketahanan zona. Jika zona yang berisi disk mengalami pemadaman, disk mungkin menjadi tidak tersedia.

Diagram yang memperlihatkan disk LRS zonal. Replikanya semuanya berada dalam satu zona ketersediaan.

Untuk beban kerja multi-VM, Anda dapat mencapai ketahanan zona dengan menyebarkan beberapa VM dan disk LRS zonalnya di berbagai zona ketersediaan. Pendekatan ini adalah cara paling umum untuk mencapai ketersediaan tinggi untuk beban kerja seperti server web, tingkat aplikasi, dan kluster database. Jika zona gagal, Anda dapat mengonfigurasi beban kerja untuk terus beroperasi dengan menggunakan VM di zona sehat.

Diagram yang menunjukkan tiga VM di zona yang berbeda, masing-masing dengan disk LRS zonal sendiri.

Pola distribusi multi-zona ini berfungsi dengan semua jenis disk, termasuk Premium SSD v2 dan Ultra Disk, yang hanya mendukung LRS. Untuk informasi selengkapnya tentang pendekatan ini, lihat Mendistribusikan VM dan disk di seluruh zona ketersediaan.

Persyaratan

Biaya

Disk LRS zonal dikenakan tarif yang sama dengan disk nonzonal. Untuk informasi harga terperinci, lihat harga disk terkelola Azure.

Mengonfigurasi dukungan zona ketersediaan

  • Buat disk baru dengan dukungan zona ketersediaan: Untuk membuat disk terkelola baru dengan redundansi LRS zonal, lihat Tutorial - Mengelola disk Azure dengan Azure CLI untuk VM Linux, atau Tutorial - Mengelola disk dengan Azure PowerShell untuk VM Windows.

    Pilih zona ketersediaan selama pembuatan disk.

    Penting

    Menyematkan ke satu zona ketersediaan hanya disarankan ketika latensi lintas zona terlalu tinggi untuk kebutuhan Anda dan setelah Anda memverifikasi bahwa latensi tersebut tidak sesuai dengan kebutuhan Anda. Dengan sendirinya, sumber daya zonal tidak memberikan ketahanan terhadap pemadaman pada zona ketersediaan. Untuk meningkatkan resiliensi sumber daya zonal, Anda perlu secara eksplisit menyebarkan sumber daya terpisah ke beberapa zona ketersediaan dan mengonfigurasi perutean lalu lintas dan pengalihfungsian otomatis. Untuk informasi selengkapnya, lihat Sumber daya zonal dan ketahanan zona.

  • Ubah konfigurasi zona ketersediaan disk yang ada: Anda tidak dapat mengubah konfigurasi zona ketersediaan disk LRS zonal yang ada. Sebagai gantinya, Anda perlu membuat disk baru yang memiliki konfigurasi baru dengan menggunakan rekam jepret dari disk sebelumnya, lalu menghapus yang lama.

Perilaku ketika semua zona sehat

Bagian ini menjelaskan apa yang diharapkan ketika Anda mengonfigurasi disk terkelola untuk LRS zonal, dan semua zona ketersediaan beroperasi.

  • Operasi lintas zona: Lalu lintas antara VM zonal dan disk LRS zonal di zona yang sama tetap berada dalam zona ketersediaan.

    Saat Anda menyebarkan beberapa VM di seluruh zona, Anda bertanggung jawab untuk mendistribusikan permintaan masuk di seluruh VM. Setiap VM membaca dari dan menulis ke disk zonalnya sendiri.

  • Replikasi data lintas zona: Semua operasi tulis ke disk LRS zona direplikasi secara sinkron dalam zona ketersediaan.

    Saat Anda menyebarkan beberapa VM di seluruh zona, jika beban kerja Anda memerlukan konsistensi data di seluruh VM, Anda bertanggung jawab untuk menyinkronkan data. Misalnya, Anda dapat menggunakan replikasi database atau replikasi lapisan aplikasi.

Perilaku selama kegagalan zona

Bagian ini menjelaskan apa yang diharapkan ketika Anda mengonfigurasi disk terkelola untuk LRS zonal, dan ada pemadaman di salah satu zona ketersediaan.

  • Deteksi dan respons: Jika Anda memiliki satu VM dengan disk LRS zonal, Anda bertanggung jawab untuk mendeteksi pemadaman zona dan memicu failover atau respons lain.

    Ketika Anda memiliki VM yang didistribusikan di beberapa zona, Anda bertanggung jawab untuk mengonfigurasi beban kerja Anda untuk mendeteksi kegagalan zona dan terus berjalan pada VM yang berada di zona sehat.

  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Kehilangan data yang diharapkan: Replikasi LRS menyediakan setidaknya 99,9999999999% (11 9) durabilitas, sehingga disk Anda menyimpan datanya dan data dapat dipulihkan setelah zona pulih.

    Ketika Anda memiliki VM yang didistribusikan di seluruh zona, data apa pun yang hanya ada pada disk di zona yang gagal untuk sementara tidak tersedia. Jika aplikasi Anda menyinkronkan data di seluruh VM, VM di zona sehat terus melayani permintaan dengan menggunakan data mereka sendiri.

  • Waktu henti yang diharapkan: Disk LRS zonal tunggal tidak tersedia hingga zona ketersediaan pulih.

    Ketika Anda memiliki VM dan disk yang didistribusikan di seluruh zona, beban kerja Anda dapat terus beroperasi pada VM di zona sehat.

  • Redistribusi: Jika Anda memiliki satu VM dengan disk LRS zonal, Anda bertanggung jawab untuk mengalihkan lalu lintas ke VM lain, jika Anda memilikinya.

    Saat Anda memiliki VM yang didistribusikan di seluruh zona, Anda dapat mengonfigurasi beban kerja untuk mendistribusikan ulang lalu lintas ke VM secara otomatis di zona sehat.

Pemulihan Zona

Saat zona ketersediaan yang gagal pulih, disk terkelola akan pulih secara otomatis. Jika VM yang terhubung ke disk terdampak gangguan, VM akan dimulai ulang. Anda bertanggung jawab untuk menyinkronkan ulang data aplikasi ke VM dan disk lain di zona ketersediaan lain, jika Anda menggunakannya.

Uji kegagalan zona

Anda tidak dapat langsung mensimulasikan kegagalan zona di tingkat disk, tetapi Anda dapat menggunakan dukungan Azure Chaos Studio untuk simulasi peristiwa zona-down dalam set skala komputer virtual dan simulasi hilangnya VM individu.

Anda harus menguji ketahanan aplikasi Terhadap kegagalan zona dan perilaku disk terkelola selama pemadaman. Pantau performa disk selama pemadaman zona yang disimulasikan, dan validasi bahwa aplikasi Anda menangani peningkatan latensi dengan tepat. Terapkan skenario pengujian otomatis yang memverifikasi bahwa aplikasi Anda dapat menangani penundaan I/O sementara dan memaksa operasi pencopotan paksa untuk disk bersama.

Ketahanan terhadap kegagalan di seluruh wilayah

Azure Disk Storage adalah layanan wilayah tunggal yang beroperasi dalam batas wilayah Azure tertentu. Layanan ini tidak menyediakan kemampuan multi-wilayah asli atau failover otomatis antar wilayah. Jika suatu wilayah menjadi tidak tersedia, sumber daya disk terkelola di wilayah tersebut juga tidak tersedia.

Solusi multi-wilayah kustom untuk ketahanan

Anda dapat membuat solusi multi-wilayah dengan menyebarkan VM dan disk di setiap wilayah, mereplikasi atau mencadangkan data di seluruh wilayah, dan melakukan failover atau memulihkan dari cadangan saat diperlukan. Anda bertanggung jawab untuk mengelola sumber daya di setiap wilayah, mengoordinasikan dan menyinkronkan data, dan menangani failover atau pemulihan. Beberapa pendekatan umum meliputi:

  • Azure Site Recovery, yang menyediakan replikasi lintas wilayah VM dan disk Anda.
  • Azure Backup, yang menyediakan layanan cadangan terkelola, termasuk layanan cadangan disk. Anda dapat menggunakan pemulihan lintas wilayah untuk memulihkan VM di wilayah lain.
  • Membangun sendiri solusi berbasis snapshot dengan menyalin snapshot disk Anda ke berbagai region.
  • Menggunakan pendekatan yang disediakan oleh database dan aplikasi tertentu. Pendekatan ini bekerja di seluruh wilayah dengan mereplikasi perubahan dan mengelola kluster. Misalnya, SQL Server Always On Availability Groups memberikan perlindungan data antar-region yang disesuaikan dengan aplikasi, dengan konsistensi dan perilaku failover yang dapat disesuaikan.

Pencadangan dan pemulihan

Disk terkelola Azure mendukung berbagai pendekatan pencadangan untuk melindungi dari kehilangan data dan kerusakan. Azure Disk Backup adalah solusi asli berbasis cloud yang mengotomatiskan manajemen siklus hidup rekam jepret. Ini menyediakan pencadangan inkremental yang konsisten saat crash dengan kebijakan penahanan yang dapat dikonfigurasi. Pendekatan tanpa agen ini mendukung beberapa pencadangan per hari tanpa memengaruhi performa aplikasi dan terintegrasi dengan pusat Azure Backup untuk manajemen terpusat. Anda dapat menggunakan rekam jepret bertahap untuk mengurangi biaya penyimpanan dan waktu pencadangan.

Untuk perlindungan tingkat VM, Azure Backup menyediakan cadangan yang konsisten dengan aplikasi untuk seluruh VM, termasuk semua disk yang terpasang. Pendekatan ini sangat ideal ketika Anda memerlukan pencadangan terkoordinasi dari beberapa disk atau cadangan yang mengenali aplikasi. Untuk beban kerja database, pertimbangkan solusi pencadangan khusus aplikasi yang memberikan perlindungan yang konsisten dengan transaksi dan opsi pemulihan yang lebih cepat.

Untuk beban kerja penting, terapkan strategi pencadangan berlapis yang menggabungkan Azure Disk Backup, replikasi rekam jepret lintas wilayah, dan pencadangan tingkat aplikasi untuk konsistensi transaksi. Konfigurasikan kebijakan backup berdasarkan persyaratan pemulihan, kebutuhan kepatuhan, dan pertimbangan biaya Anda.

Perjanjian tingkat layanan

Perjanjian tingkat layanan (SLA) untuk layanan Azure menjelaskan ketersediaan yang diharapkan dari setiap layanan dan kondisi yang harus dipenuhi solusi Anda untuk mencapai harapan ketersediaan tersebut. Untuk informasi selengkapnya, lihat SLA untuk layanan daring.

Azure Disk Storage tidak menyediakan SLA ketersediaannya sendiri tetapi disertakan dalam SLA untuk VM. Konfigurasi disk Anda dapat memengaruhi ketersediaan SLA VM Anda.