Azure Kubernetes Service üzerinde Azure HDInsight'ta güvenilirlik

Bu makalede, Azure Kubernetes Service (AKS) üzerinde Azure HDInsight'ta güvenilirlik desteği açıklanır ve hem belirli güvenilirlik önerileri hem de olağanüstü durum kurtarma ve iş sürekliliği ele alınmaktadır. Azure'daki güvenilirlik ilkelerine daha ayrıntılı bir genel bakış için bkz . Azure güvenilirliği.

Güvenilirlik önerileri

Bu bölüm dayanıklılık ve kullanılabilirlik elde etmek için öneriler içerir. Her öneri iki kategoriden birine ayrılır:

  • Sistem durumu öğeleri , Yapılandırma öğeleri ve Azure Kaynak yapılandırma ayarları, diğer hizmetlere bağımlılıklar gibi Azure İş Yükünüzü oluşturan ana bileşenlerin düzgün çalışması gibi alanları kapsar.

  • Risk öğeleri kullanılabilirlik ve kurtarma gereksinimleri, test, izleme, dağıtım gibi alanları ve çözümlenmemiş bırakılırsa ortamdaki sorun olasılığını artıran diğer öğeleri kapsar.

Güvenilirlik önerileri öncelik matrisi

Her öneri aşağıdaki öncelik matrisi uyarınca işaretlenir:

Görsel Öncelik Açıklama
Yüksek Anında düzeltme gerekiyor.
Orta 3-6 ay içinde düzeltin.
Düşük Gözden geçirilmesi gerekiyor.

Güvenilirlik önerileri özeti

Kategori Öncelik Öneri
Kullanılabilirlik Varsayılan ve en düşük sanal makine boyutu önerileri
AKS Kümelerinde HDInsight'ı Otomatik Ölçeklendirme
İzleme Log Analytics ile entegre etme
Azure Managed Prometheus ve Grafana ile izleme
Güvenlik AKS üzerinde HDInsight trafiğini kısıtlamak için NSG kullanma

Kullanılabilirlik alanı desteği

Azure kullanılabilirlik alanları, her Azure bölgesindeki en az üç fiziksel ayrı veri merkezi grubudur. Her bölgedeki veri merkezleri bağımsız güç, soğutma ve ağ altyapısı ile donatılmıştır. Yerel bölge hatası durumunda kullanılabilirlik alanları, bir bölge etkileniyorsa, bölgesel hizmetler, kapasite ve yüksek kullanılabilirlik kalan iki bölge tarafından desteklenecek şekilde tasarlanmıştır.

Hatalar, yazılım ve donanım arızalarından deprem, sel ve yangın gibi olaylara kadar değişebilir. Azure hizmetlerinin yedekliliği ve mantıksal yalıtımı ile hatalara dayanıklılık elde edilir. Azure'daki kullanılabilirlik alanları hakkında daha ayrıntılı bilgi için bkz . Bölgeler ve kullanılabilirlik alanları.

Azure kullanılabilirlik alanlarının etkinleştirildiği hizmetler, doğru güvenilirlik ve esneklik düzeyini sağlayacak şekilde tasarlanmıştır. Bunlar iki şekilde yapılandırılabilir. Alanlar arasında otomatik çoğaltma ile alanlar arası yedekli veya belirli bir bölgeye sabitlenmiş örneklerle bölgesel olabilir. Bu yaklaşımları da birleştirebilirsiniz. Bölgesel ve alanlar arası yedekli mimari hakkında daha fazla bilgi için bkz. kullanılabilirlik alanlarını ve bölgelerini kullanmak için Öneriler.

Şu anda AKS üzerinde Azure HDInsight, hizmet tekliflerinde kullanılabilirlik alanını desteklememektedir.

Olağanüstü durum kurtarma ve iş sürekliliği

Olağanüstü durum kurtarma (DR), kapalı kalma süresi ve veri kaybına neden olan doğal afetler veya başarısız dağıtımlar gibi yüksek etkili olaylardan kurtarmayla ilgilidir. Nedeni ne olursa olsun, olağanüstü durum için en iyi çözüm iyi tanımlanmış ve test edilmiş bir DR planı ve DR'yi etkin bir şekilde destekleyen bir uygulama tasarımıdır. Olağanüstü durum kurtarma planınızı oluşturmaya başlamadan önce bkz. Olağanüstü durum kurtarma stratejisi tasarlamaya yönelik Öneriler.

DR söz konusu olduğunda, Microsoft paylaşılan sorumluluk modelini kullanır. Paylaşılan bir sorumluluk modelinde Microsoft, temel altyapı ve platform hizmetlerinin kullanılabilir olmasını sağlar. Aynı zamanda, birçok Azure hizmeti verileri otomatik olarak çoğaltmaz veya başarısız olan bir bölgeden geri dönerek başka bir etkin bölgeye çapraz çoğaltma yapamaz. Bu hizmetler için iş yükünüz için uygun bir olağanüstü durum kurtarma planı ayarlamak sizin sorumluluğunuzdadır. Hizmet olarak Azure platformu (PaaS) tekliflerinde çalışan hizmetlerin çoğu, DR'yi desteklemek için özellikler ve yönergeler sağlar ve DR planınızı geliştirmeye yardımcı olmak üzere hızlı kurtarmayı desteklemek için hizmete özgü özellikleri kullanabilirsiniz.

Şu anda AKS CP (Denetim Düzlemi) hizmeti ve veritabanları üzerinde Azure HDInsight, Azure bölgeleri arasında dağıtılır. Bu bölgeler arasında AKS örnekleri ve veritabanı örnekleri üzerinde Azure HDInsight yalıtılır. Bölge düzeyinde bir kesinti oluştuğunda, bir bölge kapanır. AKS CP üzerinde Azure HDInsight'ın RP(Kaynak Sağlayıcısı), AKS CP üzerinde Azure HDInsight veritabanı ve bu bölgedeki tüm müşteri kümeleri dahil olmak üzere bu bölgedeki tüm kaynaklar. Bu durumda yalnızca bölgesel kesintinin sona ermesini bekleyebiliriz. Kesinti kurtarıldığında AKS hizmetindeki Azure HDInsight geri döner ve tüm müşteri kümeleri de geri döner. Kesintiden sonra veri tutarsızlığı nedeniyle bazı sorunlar olabilir ve el ile düzeltme yapılması gerekebilir.

Çok bölgeli olağanüstü durum kurtarma

AKS üzerinde Azure HDInsight şu anda bölgeler arası yük devretmeyi desteklememektedir. Bölgeler arası yüksek kullanılabilirlik olağanüstü durum kurtarmasını kullanarak iş sürekliliğini geliştirmek için daha yüksek karmaşıklık ve daha yüksek maliyete sahip mimari tasarımlar gerekir. Müşteriler, farklı bölgelerdeki önemli verileri ve iş durumunu yedeklemek için kendi çözümlerini tasarlamayı tercih edebilir.

Kesinti algılama, bildirim ve yönetim

  • Kümedeki anormal davranışları algılamak ve ilgili uyarı bildirimlerini ayarlamak için AKS üzerinde HDInsight üzerinde Azure izleme araçlarını kullanın. Log Analytics'i çeşitli yollarla etkinleştirebilir ve izleme için Azure Grafana panolarıyla yönetilen Prometheus hizmetini kullanabilirsiniz. Daha fazla bilgi için bkz . Azure İzleyici tümleştirmesi.

  • Abonelik, hizmet veya bölge için hizmet sorunları, planlı bakım, sistem durumu ve güvenlik önerileri hakkında bildirim almak için Azure sistem durumu uyarılarına abone olun. EtA'nın sorunun nedenini ve çözüme kavuşturulmasına neden olan sistem durumu bildirimleri, yük devretmeyi ve yeniden çalışma işlemini daha iyi yürütmenize yardımcı olur. Daha fazla bilgi için bkz . Hizmet durumunu yönetme ve Azure Hizmet Durumu belgeleri.

Tek bölgeli olağanüstü durum kurtarma

Şu anda AKS üzerinde Azure HDInsight yalnızca bir standart hizmet teklifine sahiptir ve tek bölgeli bir coğrafyada kümeler oluşturulur. Müşteriler, diaster kurtarmadan sorumludur.

Kapasite ve proaktif olağanüstü durum kurtarma dayanıklılığı

AKS ve müşterileri üzerinde Azure HDInsight Paylaşılan sorumluluk modeli altında çalışır; bu da müşterinin dağıttığı ve denetlediği hizmet için DR'ye hitap etmesi gerektiği anlamına gelir. Kurtarmanın proaktif olduğundan emin olmak için müşterilerin her zaman ikincilleri önceden dağıtması gerekir çünkü önceden ayrılmamış olanlar için etki sırasında kapasite garantisi yoktur.

HDInsight'ın özgün sürümünden farklı olarak, AKS kümelerinde HDInsight'ta kullanılan Sanal Makineler Azure VM'leriyle aynı Kotayı gerektirir. Daha fazla bilgi için bkz . Kapasite planlaması.

Bu makalede ele alınan öğeler hakkında daha fazla bilgi edinmek için bkz: