Aracılığıyla paylaş


Azure HDInsight'ta güvenilirlik

Bu makalede Azure HDInsight'ta güvenilirlik desteği açıklanır ve kullanılabilirlik alanları ile bölgeler arası kurtarma ve iş sürekliliği ele alınmaktadır. Azure'da güvenilirlik hakkında daha ayrıntılı bir genel bakış için bkz . Azure güvenilirliği.

Kullanılabilirlik alanı desteği

Kullanılabilirlik alanları , bir Azure bölgesi içindeki veri merkezlerinin fiziksel olarak ayrı gruplarıdır. Bir bölge başarısız olduğunda hizmetler kalan bölgelerden birine devredilebilir.

Azure HDInsight , bölgesel dağıtım yapılandırmasını destekler. Azure HDInsight küme düğümleri, seçili bölgede seçtiğiniz tek bir bölgeye yerleştirilir. Bölgesel HDInsight kümesi, diğer bölgelerde oluşan kesintilerden yalıtılır. Ancak, bir kesinti HDInsight kümesi için seçilen belirli bölgeyi etkilerse, küme kullanılamaz. Bu dağıtım modeli, küme içinde ucuz, düşük gecikme süreli ağ bağlantısı sağlar. Bu dağıtım modelini birden çok kullanılabilirlik alanına çoğaltmak, donanım hatalarına karşı koruma sağlamak için daha yüksek bir kullanılabilirlik düzeyi sağlayabilir.

Önemli

Kullanıcıların belirli bir bölgeyi seçmediği dağıtımlar için düğüm türleri bölgeye dayanıklı değildir ve bu nedenle, o bölgedeki herhangi bir kesinti sırasında kesinti süresiyle karşılaşabilir.

Önkoşullar

  • Kullanılabilirlik alanları yalnızca 15 Haziran 2023'dan sonra oluşturulan kümeler için desteklenir. Kullanılabilirlik alanı ayarları küme oluşturulduktan sonra güncelleştirilemez. Kullanılabilirlik alanlarını kullanmak için mevcut, kullanılabilir olmayan bir bölge kümesini de güncelleştiremezsiniz.

  • Kümeler özel bir sanal ağ altında oluşturulmalıdır.

  • Bu DB'leri aynı kullanılabilirlik alanında yapılandırabilmek için Ambari DB ve Hive meta veri deposu gibi dış meta veri deposu için kendi SQL veritabanınızı getirmeniz gerekir.

  • HDInsight kümelerinizin aşağıdaki bölgelerden birinde kullanılabilirlik alanı seçeneğiyle oluşturulması gerekir:

    • Australia East
    • Güney Brezilya
    • Canada Central
    • Central US
    • East US
    • Doğu ABD 2
    • Orta Fransa
    • Almanya Batı Merkez
    • Japonya Doğu
    • Korea Central
    • Kuzey Avrupa
    • Qatar Central
    • Güneydoğu Asya
    • ABD'nin Güney Merkez Bölgesi
    • UK South
    • ABD Virginia Hükümeti
    • West Europe
    • Batı ABD 2

Kullanılabilirlik alanı kullanarak HDInsight kümesi oluşturma

HdInsight kümesini belirli bir kullanılabilirlik alanında başlatmak için Azure Resource Manager (ARM) şablonunu kullanabilirsiniz.

Kaynaklar bölümünde , 'bölgeler' bölümünü eklemeniz ve bu kümenin hangi kullanılabilirlik alanına dağıtılmasını istediğinizi sağlamanız gerekir.

   "resources": [
        {
            "type": "Microsoft.HDInsight/clusters",
            "apiVersion": "2021-06-01",
            "name": "[parameters('cluster name')]",
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
   ]

Tek bir kullanılabilirlik alanındaki düğümleri, farklı bölgeler arasında doğrula

HDInsight kümesi hazır olduğunda, hangi kullanılabilirlik alanında dağıtıldıklarını görmek için konumu kontrol edebilirsiniz.

Kümeye genel bakışta kullanılabilirlik alanı bilgilerini gösteren ekran görüntüsü.

API yanıtı alma:

 [
        {
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
 ]

Kümenin ölçeğini artırma

HdInsight kümesinin ölçeğini daha fazla çalışan düğümüyle artırabilirsiniz. Yeni eklenen çalışan düğümleri bu kümenin aynı kullanılabilirlik alanına yerleştirilir.

Kullanılabilirlik alanı geçişi

Azure HDInsight kümeleri şu anda mevcut küme örneklerinin kullanılabilirlik alanı desteğine yerinde geçişini desteklememektedir. Ancak kümenizi yeniden oluşturmayı ve küme oluşturma sırasında farklı bir kullanılabilirlik alanı veya bölge seçebilirsiniz. Olağanüstü durum kurtarma senaryolarında farklı bir bölgedeki ikincil bekleme kümesi ve farklı bir kullanılabilirlik alanı kullanılabilir.

Bölge küçültme deneyimi

Kullanılabilirlik alanı kapandığında:

  • Bu kümeye ssh yapamazsınız.
  • Bu kümeyi silemez, ölçeklendiremez veya azaltamazsınız.
  • İş gönderemez veya iş geçmişini göremezsiniz.
  • Yine de farklı bir bölgede yeni küme oluşturma isteği gönderebilirsiniz.

Bölgeler arası olağanüstü durum kurtarma ve iş sürekliliği

Olağanüstü durum kurtarma (DR), kuruluşların doğal afetler veya kesinti ve veri kaybına neden olan başarısız dağıtımlar gibi yüksek etkili olaylardan kurtarmak için kullandığı uygulamaları ifade eder. Nedeni ne olursa olsun, olağanüstü durum için en iyi çözüm iyi tanımlanmış ve test edilmiş bir DR planı ve DR'yi etkin bir şekilde destekleyen bir uygulama tasarımıdır. Olağanüstü durum kurtarma planınızı oluşturmaya başlamadan önce bkz. Olağanüstü durum kurtarma stratejisi tasarlama önerileri.

DR için Microsoft, paylaşılan sorumluluk modelini kullanır. Bu modelde Microsoft, temel altyapı ve platform hizmetlerinin kullanılabilir olmasını sağlar. Ancak, birçok Azure hizmeti verileri otomatik olarak çoğaltmaz veya başarısız olan bir bölgeden geri dönerek başka bir etkin bölgeye çapraz çoğaltma yapamaz. Bu hizmetler için iş yükünüz için uygun bir olağanüstü durum kurtarma planı ayarlamak sizin sorumluluğunuzdadır. Hizmet olarak Azure platformu (PaaS) tekliflerinde çalışan hizmetlerin çoğu, DR'yi desteklemek için özellikler ve rehberlik sağlar. DR planınızı geliştirmeye yardımcı olmak üzere hızlı kurtarma desteklemek için hizmete özgü özellikleri kullanabilirsiniz.

Azure HDInsight kümeleri depolama, veritabanları, Active Directory, Active Directory Etki Alanı Hizmetleri, ağ ve Key Vault gibi birçok Azure hizmetini temel alır. İyi tasarlanmış, yüksek oranda kullanılabilir ve hataya dayanıklı bir analiz uygulaması, bu hizmetlerden birinde veya daha fazlasında bölgesel veya yerel kesintilere dayanacak kadar yedekli olarak tasarlanmalıdır. Bu bölümde en iyi yöntemlere, tek ve çok bölgeli kullanılabilirliğe ve iş sürekliliği planlamasına yönelik iyileştirme seçeneklerine genel bir bakış sağlanır.

Çok bölgeli coğrafyada olağanüstü durum kurtarma

Bölgeler arası yüksek kullanılabilirlik olağanüstü durum kurtarmasını kullanarak iş sürekliliğini geliştirmek için daha yüksek karmaşıklık ve daha yüksek maliyete sahip mimari tasarımlar gerekir. Aşağıdaki tablolarda toplam sahip olma maliyetini artırabilecek bazı teknik alanlar ayrıntılı olarak yer almaktadır.

Maliyet iyileştirmeleri

Area Maliyet yükseltmesinin nedeni İyileştirme stratejileri
Veri Depolama İkincil bölgede birincil verileri/tabloları çoğaltma Yalnızca seçilmiş verileri çoğaltma
Veri Çıkışı Giden bölgeler arası veri aktarımları bir fiyata gelir. Bant genişliği fiyatlandırma yönergelerini gözden geçirin Yalnızca özenle seçilmiş verileri çoğaltarak bölge çıkış ayak izini azaltın.
Küme İşlemi İkincil bölgede ek HDInsight kümesi/kümeleri Birincil sistem hatası durumunda ikincil hesaplama dağıtımını yapmak için otomatik betikleri kullanın. İkincil küme boyutunu en düşük düzeyde tutmak için Otomatik Ölçeklendirme'yi kullanın. Daha ucuz VM SKU'ları kullanın. VM SKU'larının indirime alınabileceği bölgelerde ikinciller oluşturun.
Authentication İkincil bölgedeki çok kullanıcılı senaryolar ek Microsoft Entra Domain Services kurulumuna neden olabilir İkincil bölgede çok kullanıcılı kurulumlardan kaçının.

Karmaşıklık iyileştirmeleri

Area Karmaşıklık artışının nedeni İyileştirme stratejileri
Okuma Yazma desenleri Hem birincil hem de ikincil için Okuma ve Yazma işlevlerinin etkinleştirilmesi gerekiyor. İkincil değeri salt okunur olacak şekilde tasarlama
Sıfır RPO & RTO Sıfır veri kaybı (RPO=0) ve sıfır kapalı kalma süresi (RTO=0) gerektirme Yük devretmesi gereken bileşen sayısını azaltmak için RPO ve RTO tasarlama. RTO ve RPO hakkında daha fazla bilgi için bkz . İş sürekliliği, yüksek kullanılabilirlik ve olağanüstü durum kurtarma nedir?.
İş işlevselliği İkincil alanda birincil sistemin tam iş işlevselliğini gerektirme İşlevselliğin en düşük kritik alt kümesiyle ikincil bir sistemde çalıştırılıp çalıştırılamayacağını değerlendirin.
Connectivity birincilden tüm yukarı ve aşağı akış sistemlerinin ikincil ağa bağlanmasını gerektirme İkincil bağlantıyı en düşük kritik alt kümeyle sınırlayın.

Çok bölgeli olağanüstü durum kurtarma planınızı oluştururken aşağıdaki önerileri göz önünde bulundurun:

  • Bir olağanüstü durum olduğunda ve bunun nedenini belirlemek için ihtiyacınız olan en düşük iş işlevselliğini belirleyin. Örneğin, veri dönüştürme katmanı (sarı renkte gösterilir) ve veri sunma katmanı (mavi ile gösterilir) için yük devretme özelliklerine ihtiyacınız olup olmadığını veya yalnızca veri hizmeti katmanı için yük devretmeye ihtiyacınız olup olmadığını değerlendirin.

    Veri dönüştürme ve veri sunma katmanlarını gösteren diyagram.

  • Kümelerinizi iş yüküne, geliştirme yaşam döngüsüne ve bölümlere göre segmentlere ayırma. Daha fazla kümeye sahip olmak, birden çok farklı iş süreçlerini etkileyen tek bir büyük hata olasılığını azaltır.

  • İkincil bölgelerinizi sadece-okunabilir yapın. Hem okuma hem de yazma özelliklerine sahip yük devretme bölgeleri karmaşık mimarilere yol açabilir.

  • Geçici kümelerin olağanüstü durum olduğunda yönetilmesi daha kolaydır. İş yüklerinizi kümelerin döngüye alınabileceği ve kümelerde hiçbir durumun korunmayacağı şekilde tasarlayabilirsiniz.

  • Genellikle olağanüstü durum olduğunda ve yeni bölgede yeniden başlatılması gerekiyorsa iş yükleri tamamlanmamış olarak bırakılır. İş yüklerinizi doğası gereği idempotent olacak şekilde tasarlayın.

  • Küme dağıtımları sırasında otomasyonu kullanın ve bir olağanüstü durum olduğunda hızlı ve tam otomatik dağıtım sağlamak için küme yapılandırma ayarlarının mümkün olduğunca betiklendiğinden emin olun.

Kesinti algılama, bildirim ve yönetim

  • Kümedeki anormal davranışları algılamak ve ilgili uyarı bildirimlerini ayarlamak için HDInsight üzerinde Azure izleme araçlarını kullanın. Belirli bir küme türünün önemli performans ölçümlerini toplayan önceden yapılandırılmış HDInsight kümeye özgü yönetim çözümlerini dağıtabilirsiniz. Daha fazla bilgi için bkz. HDInsight için Azure İzleme.

  • Abonelik, hizmet veya bölge için hizmet sorunları, planlı bakım, sistem durumu ve güvenlik önerileri hakkında bildirim almak için Azure sistem durumu uyarılarına abone olun. Sorunun nedenini ve tahmini çözüm süresini içeren sağlık bildirimleri, yük devretme ve geri dönüş işlemlerini daha iyi yapmanıza yardımcı olur. Daha fazla bilgi için Azure Hizmet Sağlığı dokümanına bakın.

Tek bölgeli coğrafyada olağanüstü durum kurtarma

Temel HDInsight sistemindeki her bileşenin kendi tek bölge hataya dayanıklılık mekanizmaları vardır. Şunu aklınızda bulundurun ki işlevselliğini etkilemek için her zaman yıkıcı bir olay gerekmeyebilir. Aşağıdaki hizmetlerden birinde veya birden fazlasında tek bir bölgede hizmet olayları da beklenen iş işlevselliği kaybına neden olabilir.

  • İşlem (sanal makineler): Azure HDInsight kümesi. HDInsight, 99,9%kullanılabilirlik SLA'sı sunar. Tek bir dağıtımda yüksek kullanılabilirlik sağlamak için HDInsight'a varsayılan olarak yüksek kullanılabilirlik modunda olan birçok hizmet eşlik eder. HDInsight'taki hataya dayanıklılık mekanizmaları hem Microsoft hem de Apache OSS ekosistemi yüksek kullanılabilirlik hizmetleri tarafından sağlanır.

    Aşağıdaki altyapı bileşenleri yüksek oranda kullanılabilir olacak şekilde tasarlanmıştır:

    • Etkin ve Bekleme Baş Düğümleri
    • Birden Çok Ağ Geçidi Düğümü
    • Üç Zookeeper Kvorum düğümü
    • Hata ve güncelleştirme etki alanlarına göre dağıtılmış Çalışan Düğümleri

    Aşağıdaki hizmetler de yüksek oranda kullanılabilir olacak şekilde tasarlanmıştır:

    • Apache Ambari Server
    • YARN için uygulama zaman çizelgesi sunucuları
    • Hadoop MapReduce için İş Geçmişi Sunucusu
    • Apache Livy
    • HDFS (Hadoop Dağıtık Dosya Sistemi)
    • YARN Kaynak Yöneticisi
    • HBase Ana Sunucu

    Daha fazla bilgi edinmek için bkz. Azure HDInsight tarafından desteklenen yüksek kullanılabilirlik hizmetleri.

  • Meta veri depoları: Azure SQL Veritabanı. HDInsight, meta veri deposu olarak Azure SQL Veritabanı'nın 99,99%SLA'sını sağlar. Verinin üç kopyası, zaman uyumlu çoğaltma ile bir veri merkezinde bulunur. Eğer bir replika kaybı olursa, alternatif bir replika sorunsuz bir şekilde sağlanır. Etkin coğrafi çoğaltma , en fazla dört veri merkeziyle kullanıma açık olarak desteklenir. El ile veya veri merkezi kaynaklı bir yük devretme olduğunda, hiyerarşideki ilk kopya otomatik olarak okuma-yazma özelliğine sahip olur. Daha fazla bilgi için bkz. Azure SQL Veritabanı iş sürekliliği.

  • Depolama: Azure Data Lake 2. Nesil veya Blob depolama. HDInsight, temel depolama katmanı olarak Azure Data Lake Storage 2. Nesil'i önerir. Azure Storage, Azure Data Lake Storage Gen2 dahil olmak üzere, 99,9%%SLA sağlar. HDInsight, bir veri merkezinde üç veri çoğaltmasının kalıcı olduğu ve çoğaltmanın zaman uyumlu olduğu LRS hizmetini kullanır. Replikada kayıp olduğunda, replika kesintisiz bir şekilde sağlanır.

  • Kimlik doğrulaması: Microsoft Entra Id, Microsoft Entra Domain Services, Enterprise Security Package.

  • Azure Key Vault ve Azure Data Factory gibi isteğe bağlı hizmetler.

HDInsight bileşenlerini gösteren diyagram.