Keandalan dalam Azure Disk Storage

Azure Disk Storage menyediakan disk terkelola untuk komputer virtual (VM) Azure. Dibangun untuk beban kerja misi penting, ini memastikan keandalan dan ketersediaan tingkat perusahaan. Data Anda secara otomatis direplikasi untuk melindungi dari kegagalan perangkat keras, dengan beberapa opsi redundansi untuk memenuhi persyaratan durabilitas Anda.

Saat Anda menggunakan Azure, keandalan adalah tanggung jawab bersama. Microsoft menyediakan berbagai kemampuan untuk mendukung ketahanan dan pemulihan. Anda bertanggung jawab untuk memahami cara kerja kemampuan tersebut dalam semua layanan yang Anda gunakan, dan memilih kemampuan yang Anda butuhkan untuk memenuhi tujuan bisnis dan tujuan waktu aktif Anda.

Artikel ini menjelaskan cara membuat Azure Disk Storage tahan terhadap berbagai potensi pemadaman dan masalah, termasuk kesalahan sementara, kegagalan zona ketersediaan, dan kegagalan di seluruh wilayah. Ini juga menjelaskan opsi pencadangan dan pemulihan, dan menyoroti informasi utama tentang perjanjian tingkat layanan (SLA) Azure Disk Storage.

Penting

Saat mempertimbangkan keandalan disk, Anda juga perlu mempertimbangkan keandalan VM, infrastruktur jaringan, dan aplikasi yang berjalan pada VM Anda. Meningkatkan ketahanan disk saja mungkin memiliki dampak terbatas jika komponen lain tidak sama-sama tangguh. Bergantung pada persyaratan ketahanan Anda, Anda mungkin perlu membuat perubahan konfigurasi di beberapa area.

Rekomendasi penyebaran produksi

Kerangka Azure Well-Architected memberikan rekomendasi untuk keandalan, performa, keamanan, biaya, dan operasi. Untuk memahami bagaimana area ini saling memengaruhi dan berkontribusi pada solusi Azure Disk Storage yang andal, lihat praktik terbaik Architecture untuk Azure Disk Storage.

Gambaran umum arsitektur keandalan

Setiap komputer virtual (VM) menggunakan disk untuk tujuan yang berbeda:

  • Disk OS: Satu disk OS menjalankan sistem operasi. Secara default, ini adalah disk terkelola yang menyimpan data. Anda juga dapat menggunakan disk OS ephemeral, yang tidak dikelola. Hindari menggunakan disk OS untuk menyimpan aplikasi atau data.
  • Disk data: Nol atau lebih disk terkelola untuk menyimpan aplikasi dan data.
  • Disk sementara: Disk yang tidak persisten dan tidak dikelola disertakan dengan setiap VM.

Panduan ini secara khusus berfokus pada disk terkelola, yang mempertahankan data dengan andal. Untuk mempelajari selengkapnya tentang berbagai peran disk, lihat Peran disk.

Disk terkelola dirancang untuk ketersediaan VM 99,999% dan menyediakan setidaknya 99,999999999% (11 angka 9) ketahanan. Dengan disk terkelola, data Anda direplikasi tiga kali. Jika salah satu dari tiga salinan menjadi tidak tersedia, Azure secara otomatis menelurkan salinan data baru di latar belakang. Ini memastikan keberlanjutan data Anda dan tingkat toleransi kesalahan yang tinggi.

Secara default, disk terkelola menggunakan penyimpanan redundan lokal (LRS). LRS menyimpan tiga salinan data disk Anda dalam satu pusat data, melindungi dari kegagalan perangkat keras seperti masalah drive atau rak server.

Meskipun LRS melindungi disk Anda dari rak server dan kegagalan drive, LRS tidak memperhitungkan bencana seperti kebakaran atau banjir dalam pusat data. Untuk tingkat perlindungan yang lebih tinggi, gunakan penyimpanan zona redundan (ZRS), yang mereplikasi disk Anda di beberapa zona ketersediaan.

Untuk aplikasi yang berjalan pada beberapa VM, beberapa VM memiliki SLA ketersediaan tertinggi saat didistribusikan di beberapa zona ketersediaan. Untuk VM dan disk yang didistribusikan di beberapa zona ketersediaan, disk dan VM induknya masing-masing dikolokasi di zona yang sama, yang mencegah beberapa VM turun bahkan jika seluruh zona mengalami pemadaman.

Saat zona tidak tersedia atau beban kerja Anda sensitif terhadap latensi antar-VM, sebarkan VM dan disk di beberapa domain kesalahan. Domain kesalahan tidak menyediakan redundansi zona, tetapi mengurangi dampak kegagalan perangkat keras, pemadaman jaringan, atau gangguan daya. Ini mencegah beberapa VM mengalami kegagalan jika satu domain kesalahan penyimpanan mengalami masalah.

Ketahanan terhadap kesalahan sementara

Kesalahan sementara adalah kegagalan yang bersifat sementara dan intermiten dalam komponen. Mereka sering terjadi di lingkungan terdistribusi seperti cloud, dan mereka adalah bagian normal dari operasi. Kesalahan sementara memperbaiki diri setelah waktu yang singkat. Penting bahwa aplikasi Anda dapat menangani kesalahan sementara, biasanya dengan mencoba kembali permintaan yang terpengaruh.

Semua aplikasi yang dihosting cloud harus mengikuti panduan penanganan kesalahan sementara Azure saat berkomunikasi dengan API, database, dan komponen lain yang dihosting cloud. Untuk informasi selengkapnya, lihat Rekomendasi untuk menangani kesalahan sementara.

Disk terkelola secara otomatis pulih dari kesalahan sementara dalam infrastruktur Azure.

Ketahanan terhadap kegagalan zona ketersediaan

Zona ketersediaan adalah grup pusat data yang terpisah secara fisik dalam wilayah Azure. Ketika satu zona gagal, layanan dapat melakukan failover ke salah satu zona yang tersisa.

Ada dua cara untuk menggunakan zona ketersediaan dengan disk terkelola:

  • Anda dapat menyebarkan disk zona redundan (ZRS), yang berada di tiga zona ketersediaan dalam satu wilayah. Untuk keandalan terbaik, sebaiknya gunakan disk ZRS karena disk ZRS memberikan ketahanan zona otomatis.
  • Anda dapat menyebarkan disk LRS zonal, yang hanya berada dalam satu zona. Dengan disk LRS zonal, Anda bertanggung jawab untuk mengonfigurasi beban kerja agar tahan terhadap gangguan zona. Anda melakukan ini dengan mengimplementasikan beberapa VM dan disk serta mendistribusikannya di seluruh zona ketersediaan.

Jika Anda tidak mengonfigurasi dukungan zona ketersediaan, disk Anda nonzonal atau regional dan mungkin ditempatkan di zona ketersediaan apa pun di wilayah tersebut. Disk ini dianggap LRS karena direplikasi dalam wilayah tersebut.

Disk yang redundan zona

Penyimpanan zona redundan (ZRS) secara sinkron mereplikasi data Anda di tiga zona ketersediaan dalam suatu wilayah. Saat Anda mengaktifkan redundansi zona untuk disk terkelola, Azure memastikan bahwa kegagalan di satu zona tidak memengaruhi ketersediaan data.

Diagram disk zona redundansi, dan replikanya tersebar di tiga zona ketersediaan di wilayah tersebut.

Disk ZRS dapat dibagikan antara VM untuk meningkatkan ketersediaan untuk aplikasi terkluster atau terdistribusi seperti SQL FCI, SAP ASCS/SCS, atau GFS2. Anda dapat melampirkan disk ZRS bersama ke VM primer dan sekunder di zona yang berbeda, memanfaatkan kedua disk ZRS dan VM yang terdistribusi di beberapa zona ketersediaan. Jika zona utama gagal, Anda dapat dengan cepat melakukan failover ke VM sekunder menggunakan reservasi persisten SCSI.

Jika disk ZRS dilampirkan sebagai disk data ke satu VM di zona yang mengalami gangguan, Anda dapat memaksa melepaskan disk dari VM yang gagal dan memasangnya ke VM lain.

Persyaratan

  • Dukungan wilayah: Untuk daftar wilayah yang mendukung disk terkelola ZRS, lihat Opsi redundansi untuk disk terkelola.

  • Jenis disk: Disk redundan zona didukung dengan SSD Premium dan disk terkelola SSD Standar. ZRS tidak didukung dengan disk terkelola Premium SSD v2, Ultra Disk, atau HDD Standar.

Biaya

ZRS dikenakan biaya yang lebih tinggi daripada LRS karena overhead replikasi tambahan dan infrastruktur yang diperlukan untuk mempertahankan data di beberapa zona. Perbedaan biaya yang tepat bervariasi menurut wilayah dan jenis disk. Untuk informasi harga terperinci, lihat harga disk terkelola Azure.

Mengonfigurasi dukungan zona ketersediaan

  • Buat disk ZRS baru: Untuk membuat disk terkelola ZRS baru, lihat Tutorial - Mengelola disk Azure dengan Azure CLI untuk VM Linux, atau Tutorial: Mengelola disk dengan Azure PowerShell untuk VM Windows. Pilih tingkat disk ZRS selama pembuatan disk.

    Anda bertanggung jawab untuk melampirkan disk Anda ke VM, termasuk mengonfigurasi disk bersama pada beberapa VM di zona yang berbeda jika sesuai untuk beban kerja Anda.

  • Ubah disk yang ada untuk menggunakan ZRS: Anda dapat mengonversi disk nonzonal (regional) yang ada ke ZRS.

    Meskipun Anda tidak dapat mengonversi disk LRS zonal ke ZRS, Anda dapat membuat disk ZRS baru dari rekam jepret. Lihat Mengonversi disk dari LRS ke ZRS untuk prosedur dan persyaratan migrasi langkah demi langkah.

  • Nonaktifkan dukungan zona ketersediaan: Tidak dimungkinkan untuk mengubah konfigurasi zona ketersediaan disk ZRS yang ada. Sebagai gantinya, Anda perlu membuat disk baru dengan konfigurasi baru menggunakan rekam jepret dari disk sebelumnya, dan menghapus yang lama.

Perilaku ketika semua zona sehat

Bagian ini menjelaskan apa yang dapat Anda harapkan saat disk terkelola dikonfigurasi untuk menggunakan ZRS, dan semua zona ketersediaan berfungsi.

  • Cross-zone operation: Azure secara otomatis mengelola rute lalu lintas antar zona ketersediaan saat Anda menggunakan VM dengan disk redundansi zona. Selama operasi normal, permintaan didistribusikan di seluruh zona secara transparan.

  • Replikasi data lintas zona: Disk ZRS mereplikasi setiap tulis secara sinkron di beberapa zona ketersediaan di wilayah tersebut. Operasi tulis selesai hanya setelah data disimpan dalam kluster di beberapa zona. Pendekatan ini memberikan konsistensi yang kuat dan ketersediaan tinggi, tetapi dapat memperkenalkan latensi tulis yang sedikit lebih tinggi dibandingkan dengan disk LRS.

Perilaku selama kegagalan zona

Bagian ini menjelaskan apa yang diharapkan ketika disk terkelola dikonfigurasi untuk menggunakan ZRS, dan ada pemadaman zona ketersediaan.

  • Deteksi dan respons: Beberapa pemadaman zona mungkin hanya memengaruhi disk, hanya VM, atau keduanya. Perilaku yang akan Anda amati tergantung pada apakah pemadaman zona memengaruhi VM yang terpasang pada disk.

    Jika VM tetap sehat tetapi disk dipengaruhi oleh pemadaman, VM Anda terus beroperasi. Microsoft secara otomatis mengalihkan operasi disk untuk memproses data di zona ketersediaan yang sehat, dan Anda tidak perlu melakukan apa pun.

    Jika VM tidak berfungsi, Anda perlu mengalihkan beban kerja Anda ke VM lain di zona ketersediaan yang berbeda.

    • Disk bersama: Jika Anda telah membuat VM sekunder di zona yang berbeda dan telah mengonfigurasi disk bersama, disk tersedia untuk digunakan VM sekunder tanpa memerlukan perubahan konfigurasi.

    • Disk yang tidak dibagikan: Anda dapat mencopot paksa disk dari VM yang gagal lalu melampirkannya ke VM di zona yang sehat. Untuk melakukan pelepasan paksa:

  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Kehilangan data yang diharapkan: Tidak ada kehilangan data yang terjadi selama kegagalan zona.

  • Waktu henti yang diharapkan: Saat disk Anda dibagikan antara beberapa VM, tidak ada waktu henti yang diharapkan.

  • Redistribution: Azure secara otomatis mengalihkan lalu lintas ke salinan lain disk Anda di zona sehat.

Pemulihan Zona

Azure secara otomatis mendeteksi kapan zona yang gagal sebelumnya sehat dan memulihkan sinkronisasi data ke zona yang dipulihkan.

Disk LRS Zonal

Disk LRS Zonal berada di zona ketersediaan tertentu dan hanya dapat dipasang ke VM di zona tersebut. Semua salinan data disk berada di zona yang sama. Satu disk LRS zonal dan komputer virtual tidak memberikan ketahanan zona. Jika zona yang berisi disk mengalami pemadaman, disk mungkin menjadi tidak tersedia.

Diagram yang menunjukkan disk LRS zonal, dengan semua replikanya dalam satu zona ketersediaan.

Untuk beban kerja multi-VM, Anda dapat mencapai ketahanan zona dengan menyebarkan beberapa VM dan disk LRS zona di berbagai zona ketersediaan. Pendekatan ini adalah cara paling umum untuk mencapai ketersediaan tinggi untuk beban kerja seperti server web, tingkat aplikasi, dan kluster database. Jika zona gagal, Anda dapat mengonfigurasi beban kerja untuk terus beroperasi dengan menggunakan VM di zona sehat.

Diagram yang menunjukkan tiga VM di zona yang berbeda, masing-masing dengan disk LRS zonal mereka sendiri.

Pola distribusi multi-zona ini berfungsi dengan semua jenis disk, termasuk Premium SSD v2 dan Ultra Disk, yang hanya mendukung LRS. Untuk informasi selengkapnya tentang pendekatan ini, lihat Mendistribusikan VM dan disk di seluruh zona ketersediaan.

Persyaratan

Biaya

Disk LRS zonal dikenakan tarif yang sama dengan disk nonzonal. Untuk informasi harga terperinci, lihat harga disk terkelola Azure.

Mengonfigurasi dukungan zona ketersediaan

  • Buat disk baru dengan dukungan zona ketersediaan: Untuk membuat disk terkelola baru dengan redundansi LRS zonal, lihat Tutorial - Mengelola disk Azure dengan Azure CLI untuk VM Linux, atau Tutorial: Mengelola disk dengan Azure PowerShell untuk VM Windows.

    Pilih zona ketersediaan selama pembuatan disk.

    Penting

    Menyematkan ke satu zona ketersediaan hanya disarankan ketika latensi lintas zona terlalu tinggi untuk kebutuhan Anda dan setelah Anda memverifikasi bahwa latensi tersebut tidak sesuai dengan kebutuhan Anda. Dengan sendirinya, sumber daya zonal tidak memberikan ketahanan terhadap pemadaman pada zona ketersediaan. Untuk meningkatkan resiliensi sumber daya zonal, Anda perlu secara eksplisit menyebarkan sumber daya terpisah ke beberapa zona ketersediaan dan mengonfigurasi perutean lalu lintas dan pengalihfungsian otomatis. Untuk informasi selengkapnya, lihat Sumber daya zonal dan ketahanan zona.

  • Ubah konfigurasi zona ketersediaan disk yang ada: Tidak dimungkinkan untuk mengubah konfigurasi zona ketersediaan disk LRS zonal yang ada. Sebagai gantinya, Anda perlu membuat disk baru dengan konfigurasi baru menggunakan rekam jepret dari disk sebelumnya, dan menghapus yang lama.

Perilaku ketika semua zona sehat

Bagian ini menjelaskan apa yang diharapkan ketika disk terkelola dikonfigurasi untuk menggunakan LRS zonal, dan semua zona ketersediaan beroperasi.

  • Operasi lintas zona: Lalu lintas antara VM zonal dan disk LRS zonal di zona yang sama tetap berada dalam zona ketersediaan.

    Saat Anda menyebarkan beberapa VM di seluruh zona, Anda bertanggung jawab untuk mendistribusikan permintaan masuk di seluruh VM. Setiap VM membaca dan menulis ke disk zona sendiri.

  • Replikasi data lintas zona: Semua operasi tulis ke disk LRS zona direplikasi secara sinkron dalam zona ketersediaan.

    Saat Anda menyebarkan beberapa VM di seluruh zona, jika beban kerja Anda memerlukan konsistensi data di seluruh VM, Anda bertanggung jawab untuk menyinkronkan data, seperti dengan menggunakan replikasi database atau replikasi lapisan aplikasi.

Perilaku selama kegagalan zona

Bagian ini menjelaskan apa yang diharapkan ketika disk terkelola dikonfigurasi untuk menggunakan LRS zonal, dan terjadi gangguan pada zona ketersediaan.

  • Deteksi dan respons: Jika Anda memiliki satu VM dengan disk LRS zonal, Anda bertanggung jawab untuk mendeteksi pemadaman zona dan memicu failover atau respons lain.

    Ketika Anda memiliki VM yang didistribusikan di beberapa zona, Anda bertanggung jawab untuk mengonfigurasi beban kerja Anda untuk mendeteksi kegagalan zona dan terus berjalan pada VM di zona sehat.

  • Notification: Microsoft tidak secara otomatis memberi tahu Anda saat zona tidak berfungsi. Namun, Anda dapat menggunakan Azure Resource Health untuk memantau kesehatan sumber daya individual, dan Anda dapat menyiapkan pemberitahuan Resource Health untuk memberi tahu Anda tentang masalah. Anda juga dapat menggunakan Azure Service Health untuk memahami kesehatan keseluruhan layanan, termasuk kegagalan zona apa pun, dan Anda dapat menyiapkan pemberitahuan Service Health untuk memberi tahu Anda tentang masalah.
  • Kehilangan data yang diharapkan: Replikasi LRS menyediakan setidaknya 99,999999999% (11 9) durabilitas, yang berarti disk Anda menyimpan datanya dan data dapat dipulihkan setelah zona pulih.

    Ketika Anda memiliki VM yang didistribusikan di seluruh zona, data apa pun yang hanya ada pada disk di zona yang gagal untuk sementara tidak tersedia. Jika aplikasi Anda menyinkronkan data di seluruh VM, VM di zona sehat terus melayani permintaan menggunakan data mereka sendiri.

  • Waktu henti yang diharapkan: Disk LRS zonal tunggal tidak tersedia hingga zona ketersediaan pulih.

    Ketika Anda memiliki VM dan disk yang didistribusikan di seluruh zona, beban kerja Anda dapat terus beroperasi pada VM di zona sehat.

  • Redistribusi: Jika Anda memiliki satu VM dengan disk LRS zonal, Anda bertanggung jawab untuk mengalihkan lalu lintas ke VM lain jika Anda memilikinya.

    Saat Anda memiliki VM yang didistribusikan di seluruh zona, Anda dapat mengonfigurasi beban kerja untuk mendistribusikan ulang lalu lintas ke VM secara otomatis di zona sehat.

Pemulihan Zona

Saat zona ketersediaan yang gagal pulih, disk terkelola akan pulih secara otomatis. Jika VM yang terhubung dengan disk telah dipengaruhi oleh pemadaman, maka VM akan dimulai ulang. Anda bertanggung jawab untuk menyinkronkan ulang data aplikasi ke VM dan disk lain di zona ketersediaan lain, jika Anda menggunakannya.

Uji kegagalan zona

Anda tidak dapat langsung mensimulasikan kegagalan zona di tingkat disk, tetapi Anda dapat menggunakan dukungan Azure Chaos Studio untuk mensimulasikan peristiwa kegagalan zona dalam set skala komputer virtual dan mensimulasikan kehilangan komputer virtual individu.

Anda harus menguji ketahanan aplikasi Terhadap kegagalan zona dan perilaku disk terkelola selama pemadaman. Pantau performa disk selama pemadaman zona yang disimulasikan, dan validasi bahwa aplikasi Anda menangani peningkatan latensi dengan tepat. Terapkan skenario pengujian otomatis yang memverifikasi bahwa aplikasi Anda dapat menangani penundaan I/O sementara dan memaksa operasi pencopotan paksa untuk disk bersama.

Ketahanan terhadap kegagalan di seluruh wilayah

Azure Disk Storage adalah layanan wilayah tunggal yang beroperasi dalam batas wilayah Azure tertentu. Layanan ini tidak menyediakan kemampuan multi-wilayah asli atau failover otomatis antar wilayah. Jika suatu wilayah menjadi tidak tersedia, sumber daya disk terkelola di wilayah tersebut juga tidak tersedia.

Solusi multi-wilayah kustom untuk ketahanan

Anda dapat membangun solusi multi-wilayah dengan menyebarkan komputer virtual dan disk di setiap wilayah, mereplikasi atau mencadangkan data di seluruh wilayah, dan melakukan failover atau memulihkan dari cadangan saat diperlukan. Anda bertanggung jawab untuk mengelola sumber daya di setiap wilayah, mengoordinasikan dan menyinkronkan data, dan menangani failover atau pemulihan. Beberapa pendekatan umum meliputi:

  • Azure Site Recovery, yang menyediakan replikasi lintas wilayah komputer virtual dan disk Anda.
  • Azure Backup menyediakan layanan cadangan terkelola, termasuk untuk disk. Anda dapat menggunakan pemulihan lintas wilayah untuk memulihkan VM di wilayah lain.
  • Anda dapat membangun solusi berbasis snapshot Anda sendiri dengan menyalin snapshot disk Anda antar wilayah.
  • Beberapa database dan aplikasi menyediakan pendekatan replikasi yang berfungsi di seluruh wilayah, dengan mereplikasi perubahan dan mengelola kluster. Misalnya, SQL Server Always On Availability Groups memberikan perlindungan data antar-region yang disesuaikan dengan aplikasi, dengan konsistensi dan perilaku failover yang dapat disesuaikan.

Pencadangan dan pemulihan

Disk terkelola Azure mendukung berbagai pendekatan pencadangan untuk melindungi dari kehilangan data dan kerusakan. Azure Disk Backup adalah solusi asli berbasis cloud yang mengotomatiskan manajemen siklus hidup rekam jepret. Ini menyediakan pencadangan inkremental yang konsisten saat crash dengan kebijakan penahanan yang dapat dikonfigurasi. Pendekatan tanpa agen ini mendukung beberapa pencadangan per hari tanpa memengaruhi performa aplikasi dan terintegrasi dengan Azure Backup Center untuk manajemen terpusat. Anda dapat menggunakan rekam jepret bertahap untuk mengurangi biaya penyimpanan dan waktu pencadangan.

Untuk perlindungan tingkat VM, Azure Backup menawarkan cadangan yang konsisten dengan aplikasi untuk seluruh komputer virtual, termasuk semua disk yang terpasang. Pendekatan ini sangat ideal ketika Anda memerlukan pencadangan terkoordinasi dari beberapa disk atau cadangan yang mengenali aplikasi. Untuk beban kerja database, pertimbangkan solusi pencadangan khusus aplikasi yang memberikan perlindungan yang konsisten dengan transaksi dan opsi pemulihan yang lebih cepat.

Untuk beban kerja penting, terapkan strategi pencadangan berlapis yang menggabungkan Azure Disk Backup, replikasi rekam jepret lintas wilayah, dan pencadangan tingkat aplikasi untuk konsistensi transaksi. Konfigurasikan kebijakan backup berdasarkan persyaratan pemulihan, kebutuhan kepatuhan, dan pertimbangan biaya Anda.

Perjanjian tingkat layanan

Perjanjian tingkat layanan (SLA) untuk layanan Azure menjelaskan ketersediaan yang diharapkan dari setiap layanan dan kondisi yang harus dipenuhi solusi Anda untuk mencapai harapan ketersediaan tersebut. Untuk informasi selengkapnya, lihat SLA untuk layanan daring.

Azure Disk Storage tidak menyediakan SLA ketersediaannya sendiri, tetapi sebaliknya disertakan dalam SLA untuk VM. Konfigurasi disk Anda dapat memengaruhi ketersediaan SLA VM Anda.