Freigeben über


Zuverlässigkeit in Azure HDInsight in Azure Kubernetes Service

In diesem Artikel wird die Unterstützung von Zuverlässigkeit in Azure HDInsight für Azure Kubernetes Service (AKS) beschrieben. Er umfasst sowohl spezifische Zuverlässigkeitsempfehlungen als auch die Notfallwiederherstellung und Geschäftskontinuität. Eine ausführlichere Übersicht über die Zuverlässigkeitsprinzipien in Azure finden Sie unter Azure-Zuverlässigkeit.

Zuverlässigkeitsempfehlungen

Dieser Abschnitt enthält Empfehlungen für das Erreichen von Resilienz und Verfügbarkeit. Jede Empfehlung fällt in eine von zwei Kategorien:

  • Integritätselemente umfassen Bereiche wie Konfigurationselemente und die ordnungsgemäße Funktion der Hauptkomponenten, aus denen Ihr Azure-Workload besteht, wie z. B. Konfigurationseinstellungen der Azure-Ressourcen oder Abhängigkeiten von anderen Diensten.

  • Risikoelemente umfassen Bereiche wie Verfügbarkeits- und Wiederherstellungsanforderungen, Tests, Überwachung, Bereitstellung und andere Elemente, die die Wahrscheinlichkeit von Problemen in der Umgebung erhöhen, wenn sie nicht gelöst werden.

Prioritätsmatrix der Zuverlässigkeitsempfehlungen

Jede Empfehlung wird gemäß der folgenden Prioritätsmatrix gekennzeichnet:

Image Priority BESCHREIBUNG
High Sofortige Korrektur erforderlich.
Mittel Korrektur innerhalb von 3-6 Monaten.
Niedrig Muss überprüft werden.

Zusammenfassung der Zuverlässigkeitsempfehlungen

Category Priority Empfehlung
Verfügbarkeit Empfehlung zur Standard- und Mindestgröße von VMs
Autoskalierung von Azure HDInsight in AKS-Clustern
Überwachung Vorgehensweise zum Integrieren mit Log Analytics
Überwachung mit Azure Managed Prometheus und Grafana
Sicherheit Verwenden von NSG zum Einschränken des Datenverkehrs auf HDInsight on AKS

Unterstützung für Verfügbarkeitszonen

Azure-Verfügbarkeitszonen sind mindestens drei physisch getrennte Gruppen von Rechenzentren innerhalb jeder Azure-Region. Die Rechenzentren innerhalb jeder Zone sind mit unabhängiger Stromversorgung, Kühlung und Netzwerkinfrastruktur ausgestattet. Bei einem Fehler in der lokalen Zone sind Verfügbarkeitszonen so konzipiert, dass regionale Dienste, Kapazität und Hochverfügbarkeit von den verbleibenden beiden Zonen unterstützt werden, wenn eine Zone betroffen ist.

Ausfälle können von Software- und Hardwareausfällen bis hin zu Ereignissen wie Erdbeben, Überflutungen und Bränden reichen. Fehlertoleranz wird durch Redundanz und logische Isolierung von Azure-Diensten erreicht. Ausführlichere Informationen zu Verfügbarkeitszonen in Azure finden Sie unter Regionen und Verfügbarkeitszonen.

Azure-Dienste mit Unterstützung von Verfügbarkeitszonen bieten das richtige Maß an Zuverlässigkeit und Flexibilität. Für die Konfiguration gibt es zwei Möglichkeiten. Sie können entweder zonenredundant mit automatischer zonenübergreifender Replikation oder zonenbasiert mit Instanzen sein, die an eine bestimmte Zone angeheftet werden. Sie können diese Ansätze auch kombinieren. Weitere Informationen zur zonalen im Vergleich zur zonenredundanten Architektur finden Sie unter Empfehlungen für die Verwendung von Verfügbarkeitszonen und Regionen.

Azure HDInsight auf AKS unterstützt Verfügbarkeitszonen, indem es die Fähigkeit von Azure Kubernetes Service nutzt, zonenredundante Knotenpools zu erstellen. Sie können auswählen, in welchen Verfügbarkeitszonen der Cluster-Pool und der Cluster bei der Erstellung bereitgestellt werden sollen. Sobald der Cluster-Pool oder Cluster erstellt ist, können Sie die Verfügbarkeitszonen nicht mehr ändern.

Voraussetzungen

  • Verfügbarkeitszonen werden nur für Clusterpoolversion >= 1.2 und Clusterversion >= 1.2.1 unterstützt.

  • Azure HDInsight auf AKS hat nur eine Standard-SKU und unterstützt AZ, solange die Azure-Region AZ-Unterstützung bietet.

    Die unten aufgeführten Regionen unterstützen AZ nicht:

    Amerika Europa Naher Osten Afrika Asien-Pazifik
    USA (Westen) Deutschland, Norden
  • Einige VM-SKUs unterstützen möglicherweise nicht alle Verfügbarkeitszonen in einer Region. Wenn Sie diese SKUs auswählen, unterstützt HDInsight auf AKS-Cluster-Pools oder -Clustern auch keine entsprechenden Verfügbarkeitszonen.

SLA-Verbesserungen

Es gibt keine erhöhten SLAs für Azure HDInsight auf AKS-Clustern mit aktivierten Verfügbarkeitszonen.

Erstellen einer Ressource mit aktivierter Verfügbarkeitszone

  • Clusterpools Sie können bei der Erstellung von Clusterpools eine oder mehrere Verfügbarkeitszonen auswählen, nachdem Sie die Region ausgewählt haben.

  • Cluster Sie können bei der Erstellung von Clustern eine oder mehrere Verfügbarkeitszonen auswählen.

Fehlertoleranz

Um sich auf den Ausfall einer Verfügbarkeitszone vorzubereiten, empfiehlt es sich, eine Überkapazität an Diensten bereitzustellen, um sicherzustellen, dass Ihr Cluster den Kapazitätsverlust durch den Ausfall einer Verfügbarkeitszone verkraften kann und während zonenweiter Ausfälle ohne Leistungseinbußen weiter funktioniert. Wenn Sie z. B. 3 Verfügbarkeitszonen aktivieren, sollte Ihr Cluster einen Ausfall von 1/3 der Knoten tolerieren (aufgerundet auf die nächste ganze Zahl).

Zonenausfall

Der Dienst Azure HDInsight für AKS ist zonenredundant. Während eines zonenweiten Ausfalls sollte die Kundin oder der Kunde mit Leistungsminderung aufgrund von Kapazitätsverlusten rechnen. Kundinnen und Kunden können weiterhin neue Clusterpools und Cluster in den Verfügbarkeitszonen erstellen, die nicht betroffen sind. Vorhandene Cluster können mit reduzierter Kapazität funktionieren. In der Dokumentation werden Empfehlungen und bewährte Methoden für einzelne Open Source-Workloads bereitgestellt.

Notfallwiederherstellung und Geschäftskontinuität

Bei der Notfallwiederherstellung (DR) geht es um die Wiederherstellung nach Ereignissen mit schwerwiegenden Auswirkungen, z. B. Naturkatastrophen oder fehlerhaften Bereitstellungen, die zu Downtime und Datenverlust führen. Unabhängig von der Ursache ist das beste Mittel gegen einen Notfall ein gut definierter und getesteter Notfallplan und ein Anwendungsdesign, die Notfallwiederherstellung aktiv unterstützt. Bevor Sie mit der Erstellung Ihres Notfallwiederherstellungsplans beginnen, lesen Sie die Empfehlungen zum Entwerfen einer Notfallwiederherstellungsstrategie.

Bei DR verwendet Microsoft das Modell der gemeinsamen Verantwortung. In einem Modell der gemeinsamen Verantwortung stellt Microsoft sicher, dass die grundlegenden Infrastruktur- und Plattformdienste verfügbar sind. Gleichzeitig replizieren viele Azure-Dienste nicht automatisch Daten oder greifen automatisch auf eine ausgefallene Region zurück, um eine regionsübergreifende Replikation in eine andere aktivierte Region durchzuführen. Für diese Dienste sind Sie dafür verantwortlich, einen Notfallwiederherstellungsplan zu erstellen, der für Ihre Workload geeignet ist. Die meisten Dienste, die auf Azure Platform as a Service (PaaS)-Angeboten laufen, bieten Funktionen und Anleitungen zur Unterstützung von Notfallwiederherstellung und Sie können dienstspezifische Funktionen zur Unterstützung einer schnellen Wiederherstellung nutzen, um Ihren Notfallwiederherstellungsplan zu entwickeln.

Azure HDInsight wird in AKS-Steuerungsebene-Diensten und -Datenbanken in allen Regionen von Azure bereitgestellt. In diesen Regionen sind die Instanzen und Datenbankinstanzen von Azure HDInsight in AKS isoliert. Wenn ein Ausfall auf Ebene einer Region auftritt, ist eine Region ausgefallen. Alle Ressourcen in dieser Region, einschließlich RP (Resource Provider) von Azure HDInsight in AKS-Steuerungsebene, die Datenbank von Azure HDInsight in der AKS-Steuerungsebene und alle Kundencluster in dieser Region. In diesem Fall kann man nur warten, bis der Ausfall in der Region endet. Wenn der zonale Ausfall vollständig wiederhergestellt wird, ist Azure HDInsight auf dem AKS-Dienst wieder vorhanden, und alle Kundencluster sind wieder normal. Es ist möglich, dass nach dem Ausfall Probleme aufgrund von Dateninkonsistenzen auftreten und eine manuelle Korrektur auf der Grundlage Ihrer Anwendungsworkloads erforderlich ist.

Notfallwiederherstellung in mehreren Regionen

Azure HDInsight in AKS unterstützt derzeit kein regionsübergreifendes Failover. Für eine Verbesserung der Geschäftskontinuität mithilfe von regionsübergreifender Notfallwiederherstellung mit Hochverfügbarkeit sind komplexere und mit höheren Kosten verbundene Architekturstrukturen erforderlich. Kunden können ihre eigene Lösung entwickeln, um wichtige Daten und den Auftragsstatus in verschiedenen Regionen zu sichern.

Erkennung, Benachrichtigung und Verwaltung von Ausfällen

  • Verwenden Sie die Azure-Überwachungstools in HDInsight in AKS, um ungewöhnliches Verhalten im Cluster zu erkennen und entsprechende Warnmeldungen festzulegen. Sie können Log Analytics auf verschiedene Weise aktivieren und den verwalteten Prometheus-Dienst mit Azure Grafana-Dashboards für die Überwachung verwenden. Weitere Informationen finden Sie unter Azure Monitor-Integration.

  • Abonnieren Sie Azure-Integritätswarnungen, um über Dienstprobleme, geplante Wartungen sowie Integritäts- und Sicherheitsempfehlungen für ein Abonnement, einen Dienst oder eine Region benachrichtigt zu werden. Integritätsbenachrichtigungen, die die Problemursache und eine feste ETA enthalten, helfen Ihnen bei der besseren Ausführung von Failovern und Failbacks. Weitere Informationen finden Sie unter Service Health verwalten in der Dokumentation zu Azure Service Health.

Notfallwiederherstellung für eine einzelne Region

Derzeit verfügt Azure HDInsight in AKS nur über ein Standarddienstangebot, und Cluster werden in einer einzigen Region dargestellt. Kundinnen und Kunden sind für die Einstellungen zur Wiederherstellung nach einem Katastrophenfall je nach den Anforderungen der Anwendung verantwortlich.

Kapazität und proaktive Resilienz der Notfallwiederherstellung

Azure HDInsight in AKS und seine Kunden verwenden das Modell der gemeinsamen Verantwortung. Das heißt, dass die Kundin bzw. der Kunde für die Anforderungen der Notfallwiederherstellung für den Dienst verantwortlich ist, den sie oder er bereitstellt und steuert. Um sicherzustellen, dass die Wiederherstellung proaktiv ist, sollten Kunden Sekundärdateien immer vorab bereitstellen, da es keine Kapazitätsgarantie zur Zeit der Auswirkungen für diejenigen gibt, die nicht vorab zugewiesen wurden.

Im Gegensatz zu HDInsight benötigen die in HDInsight auf AKS-Clustern verwendeten VMs das gleiche Kontingent wie Azure-VMs. Weitere Informationen finden Sie unter Kapazitätsplanung.

Weitere Informationen zu den in diesem Artikel erörterten Themen finden Sie unter: