Bagikan melalui


Keandalan di Azure HDInsight di Azure Kubernetes Service

Artikel ini menjelaskan dukungan keandalan di Azure HDInsight di Azure Kubernetes Service (AKS), dan mencakup rekomendasi keandalan tertentu dan pemulihan bencana dan kelangsungan bisnis. Untuk gambaran umum yang lebih rinci tentang prinsip keandalan di Azure, lihat Keandalan Azure.

Rekomendasi keandalan

Bagian ini berisi rekomendasi untuk mencapai ketahanan dan ketersediaan. Setiap rekomendasi termasuk dalam salah satu dari dua kategori:

  • Item kesehatan mencakup area seperti item konfigurasi dan fungsi yang tepat dari komponen utama yang membentuk Azure Workload Anda, seperti pengaturan konfigurasi Sumber Daya Azure, dependensi pada layanan lain, dan sebagainya.

  • Item risiko mencakup area seperti persyaratan ketersediaan dan pemulihan, pengujian, pemantauan, penyebaran, dan item lain yang, jika dibiarkan tidak terselesaikan, meningkatkan kemungkinan masalah di lingkungan.

Matriks prioritas rekomendasi keandalan

Setiap rekomendasi ditandai sesuai dengan matriks prioritas berikut:

Gambar Prioritas Deskripsi
Sangat Penting Perbaikan langsung diperlukan.
Medium Perbaiki dalam waktu 3-6 bulan.
Kurang Penting Perlu ditinjau.

Ringkasan rekomendasi keandalan

Kategori Prioritas Rekomendasi
Ketersediaan Rekomendasi ukuran komputer virtual default dan minimum
Auto Scale HDInsight pada Kluster AKS
Pemantauan Cara mengintegrasikan dengan Log Analytics
Pemantauan dengan Azure Managed Prometheus dan Grafana
Keamanan Menggunakan NSG untuk membatasi lalu lintas ke HDInsight di AKS

Dukungan zona ketersediaan

Zona ketersediaan Azure adalah setidaknya tiga grup pusat data yang terpisah secara fisik dalam setiap wilayah Azure. Pusat data dalam setiap zona dilengkapi dengan infrastruktur daya, pendinginan, dan jaringan independen. Dalam kasus kegagalan zona lokal, zona ketersediaan dirancang sehingga jika satu zona terpengaruh, layanan regional, kapasitas, dan ketersediaan tinggi didukung oleh dua zona yang tersisa.

Kegagalan dapat berkisar dari kegagalan perangkat lunak dan perangkat keras hingga peristiwa seperti gempa bumi, banjir, dan kebakaran. Toleransi terhadap kegagalan dicapai dengan redundansi dan isolasi logis layanan Azure. Untuk informasi selengkapnya tentang zona ketersediaan di Azure, lihat Wilayah dan zona ketersediaan.

Layanan berkemampuan zona ketersediaan Azure dirancang untuk memberikan tingkat keandalan dan fleksibilitas yang tepat. Mereka dapat dikonfigurasi dalam dua cara. Mereka dapat berupa zona redundan,dengan replikasi otomatis di seluruh zona, atau zonal, dengan instans yang disematkan ke zona tertentu. Anda juga dapat menggabungkan pendekatan ini. Untuk informasi selengkapnya tentang arsitektur zonal vs. zona-redundan, lihat Rekomendasi untuk menggunakan zona dan wilayah ketersediaan.

Azure HDInsight di AKS mendukung zona ketersediaan dengan memanfaatkan kemampuan Azure Kubernetes Service untuk membuat kumpulan simpul redundan zona. Anda dapat memilih zona ketersediaan mana yang akan digunakan untuk menyebarkan kumpulan kluster dan kluster selama pembuatannya. Setelah kumpulan kluster atau kluster dibuat, Anda tidak dapat mengubah zona ketersediaan.

Prasyarat

  • Zona ketersediaan hanya didukung untuk versi >kumpulan kluster = 1.2 dan versi >kluster = 1.2.1.

  • Azure HDInsight di AKS hanya memiliki satu SKU default dan mendukung AZ selama wilayah Azure memiliki dukungan AZ.

    Wilayah di bawah ini tidak mendukung AZ:

    Amerika Eropa Timur Tengah Afrika Asia Pasifik
    US Barat Jerman Utara
  • Beberapa SKU VM mungkin tidak mendukung semua zona ketersediaan di suatu wilayah. Jika Anda memilih SKU tersebut, HDInsight pada kumpulan kluster atau kluster AKS juga tidak mendukung zona ketersediaan yang sesuai.

Peningkatan SLA

Tidak ada peningkatan SLA untuk Azure HDInsight pada kluster AKS dengan zona ketersediaan diaktifkan.

Membuat sumber daya dengan zona ketersediaan diaktifkan

  • Kumpulan Kluster Anda dapat memilih satu atau beberapa zona ketersediaan selama pembuatan kumpulan kluster setelah Anda memilih wilayah.

  • Kluster Anda dapat memilih satu atau beberapa zona ketersediaan selama pembuatan kluster.

Toleransi kegagalan

Untuk mempersiapkan kegagalan zona ketersediaan, disarankan untuk menyediakan kapasitas layanan secara berlebihan untuk memastikan bahwa kluster Anda dapat mentolerir hilangnya kapasitas dari satu zona ketersediaan ke bawah dan terus berfungsi tanpa penurunan performa selama pemadaman di seluruh zona. Misalnya, jika Anda mengaktifkan 3 zona ketersediaan, kluster Anda harus mentolerir 1/3 simpul ke bawah (membulatkan ke atas ke bilangan bulat terdekat).

Pengalaman zona tidak berfungsi

Azure HDInsight pada layanan AKS adalah zona redundan. Selama pemadaman di seluruh zona, pelanggan harus mengharapkan penurunan performa karena penurunan kapasitas. Pelanggan masih dapat membuat kumpulan kluster dan kluster baru di zona ketersediaan yang tidak terpengaruh. Kluster yang ada dapat berfungsi dengan kapasitas yang berkurang. Rekomendasi beban kerja sumber terbuka individu dan praktik terbaik disediakan pada dokumentasi.

Pemulihan bencana dan keberlangsungan bisnis

Pemulihan bencana (DR) adalah tentang pemulihan dari peristiwa berdampak tinggi, seperti bencana alam atau penyebaran gagal yang mengakibatkan waktu henti dan kehilangan data. Terlepas dari penyebabnya, obat terbaik untuk bencana adalah rencana DR yang terdefinisi dan teruji dengan baik dan desain aplikasi yang secara aktif mendukung DR. Sebelum Anda mulai berpikir tentang membuat rencana pemulihan bencana Anda, lihat Rekomendasi untuk merancang strategi pemulihan bencana.

Ketika datang ke DR, Microsoft menggunakan model tanggung jawab bersama. Dalam model tanggung jawab bersama, Microsoft memastikan bahwa infrastruktur dasar dan layanan platform tersedia. Pada saat yang sama, banyak layanan Azure tidak secara otomatis mereplikasi data atau mundur dari wilayah yang gagal untuk mereplikasi silang ke wilayah lain yang diaktifkan. Untuk layanan tersebut, Anda bertanggung jawab untuk menyiapkan rencana pemulihan bencana yang berfungsi untuk beban kerja Anda. Sebagian besar layanan yang berjalan pada penawaran platform as a service (PaaS) Azure menyediakan fitur dan panduan untuk mendukung DR dan Anda dapat menggunakan fitur khusus layanan untuk mendukung pemulihan cepat untuk membantu mengembangkan rencana DR Anda.

Azure HDInsight pada layanan dan database sarana kontrol AKS disebarkan di seluruh wilayah Azure. Di antara wilayah ini, Azure HDInsight pada instans AKS dan instans database diisolasi. Ketika pemadaman di tingkat wilayah terjadi, satu wilayah tidak berfungsi. Semua sumber daya di wilayah ini, termasuk RP (Penyedia Sumber Daya) Azure HDInsight pada sarana kontrol AKS, database Azure HDInsight pada sarana kontrol AKS dan semua kluster pelanggan di wilayah ini. Dalam hal ini, kita hanya dapat menunggu pemadaman regional berakhir. Ketika pemadaman zona sepenuhnya pulih, Azure HDInsight pada layanan AKS kembali dan semua kluster pelanggan kembali normal. Ada kemungkinan Anda mungkin mengalami beberapa masalah karena ketidakkonsistensian data setelah pemadaman dan mungkin memerlukan perbaikan manual berdasarkan beban kerja aplikasi Anda.

Pemulihan bencana multi-wilayah

Azure HDInsight di AKS saat ini tidak mendukung failover lintas wilayah. Meningkatkan kelangsungan bisnis menggunakan pemulihan bencana ketersediaan tinggi lintas wilayah membutuhkan desain arsitektur dengan kompleksitas dan biaya yang lebih tinggi. Pelanggan dapat memilih untuk merancang solusi mereka sendiri untuk mencadangkan data utama dan status pekerjaan di berbagai wilayah.

Deteksi, pemberitahuan, dan manajemen pemadaman

  • Gunakan alat pemantauan Azure pada HDInsight di AKS untuk mendeteksi perilaku abnormal di kluster dan mengatur pemberitahuan pemberitahuan yang sesuai. Anda dapat mengaktifkan Analitik Log dengan berbagai cara dan menggunakan layanan Prometheus terkelola dengan dasbor Azure Grafana untuk pemantauan. Untuk informasi selengkapnya, lihat Integrasi Azure Monitor.

  • Langganan pemberitahuan kesehatan Azure untuk mendapat pemberitahuan Anda mengenai masalah layanan, pemeliharaan terencana, saran kesehatan dan keamanan untuk langganan, layanan, atau wilayah. Pemberitahuan kesehatan yang mencakup penyebab masalah dan ETA tegas membantu Anda untuk mengeksekusi kegagalan dan failback dengan lebih baik. Untuk informasi selengkapnya, lihat Mengelola kesehatan layanan dan dokumentasi Azure Service Health.

Pemulihan bencana satu wilayah

Saat ini, Azure HDInsight di AKS hanya memiliki satu penawaran layanan standar dan kluster dibuat dalam geografi wilayah tunggal. Pelanggan bertanggung jawab atas pengaturan pemulihan diaster berdasarkan persyaratan aplikasi.

Kapasitas dan ketahanan pemulihan bencana proaktif

Azure HDInsight di AKS dan pelanggannya beroperasi di bawah model Tanggung jawab bersama, yang berarti bahwa pelanggan harus memenuhi persyaratan pemulihan bencana untuk layanan yang mereka sebarkan dan kontrol. Untuk memastikan bahwa pemulihan proaktif, pelanggan harus selalu mendahului sekunder karena tidak ada jaminan kapasitas pada saat dampak bagi mereka yang belum melakukan pra-alokasi.

Tidak seperti HDInsight, Komputer Virtual yang digunakan dalam HDInsight pada kluster AKS memerlukan Kuota yang sama dengan Azure VM. Untuk informasi selengkapnya, lihat Perencanaan kapasitas.

Untuk mempelajari selengkapnya tentang item yang dibahas di artikel ini, lihat: