Zuverlässigkeit in Azure HDInsight in Azure Kubernetes Service

Artikel
11/05/2024

Hinweis

Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.

Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

In diesem Artikel wird die Unterstützung von Zuverlässigkeit in Azure HDInsight für Azure Kubernetes Service (AKS) beschrieben. Er umfasst auch die Notfallwiederherstellung und Geschäftskontinuität.

Unterstützung für Verfügbarkeitszonen

Azure-Verfügbarkeitszonen sind mindestens drei physisch getrennte Gruppen von Rechenzentren innerhalb jeder Azure-Region. Die Rechenzentren innerhalb jeder Zone sind mit unabhängiger Stromversorgung, Kühlung und Netzwerkinfrastruktur ausgestattet. Bei einem Fehler in der lokalen Zone sind Verfügbarkeitszonen so konzipiert, dass regionale Dienste, Kapazität und Hochverfügbarkeit von den verbleibenden beiden Zonen unterstützt werden, wenn eine Zone betroffen ist.

Ausfälle können von Software- und Hardwareausfällen bis hin zu Ereignissen wie Erdbeben, Überflutungen und Bränden reichen. Fehlertoleranz wird durch Redundanz und logische Isolierung von Azure-Diensten erreicht. Ausführlichere Informationen zu Verfügbarkeitszonen in Azure finden Sie unter Regionen und Verfügbarkeitszonen.

Azure-Dienste mit Unterstützung von Verfügbarkeitszonen bieten das richtige Maß an Zuverlässigkeit und Flexibilität. Für die Konfiguration gibt es zwei Möglichkeiten. Sie können entweder zonenredundant mit automatischer zonenübergreifender Replikation oder zonenbasiert mit Instanzen sein, die an eine bestimmte Zone angeheftet werden. Sie können diese Ansätze auch kombinieren. Weitere Informationen zur zonalen im Vergleich zur zonenredundanten Architektur finden Sie unter Empfehlungen für die Verwendung von Verfügbarkeitszonen und Regionen.

Azure HDInsight auf AKS unterstützt Verfügbarkeitszonen, indem es die Fähigkeit von Azure Kubernetes Service nutzt, zonenredundante Knotenpools zu erstellen. Sie können auswählen, in welchen Verfügbarkeitszonen der Cluster-Pool und der Cluster bei der Erstellung bereitgestellt werden sollen. Sobald der Cluster-Pool oder Cluster erstellt ist, können Sie die Verfügbarkeitszonen nicht mehr ändern.

Voraussetzungen

Verfügbarkeitszonen werden nur für Clusterpoolversion >= 1.2 und Clusterversion >= 1.2.1 unterstützt.
Azure HDInsight auf AKS hat nur eine Standard-SKU und unterstützt AZ, solange die Azure-Region AZ-Unterstützung bietet.

Die unten aufgeführten Regionen unterstützen AZ nicht:

Amerika Europa Naher Osten Afrika Asien-Pazifik

USA (Westen) Deutschland, Norden
Einige VM-SKUs unterstützen möglicherweise nicht alle Verfügbarkeitszonen in einer Region. Wenn Sie diese SKUs auswählen, unterstützt HDInsight auf AKS-Cluster-Pools oder -Clustern auch keine entsprechenden Verfügbarkeitszonen.

Amerika	Europa	Naher Osten	Afrika	Asien-Pazifik
USA (Westen)	Deutschland, Norden

SLA-Verbesserungen

Es gibt keine erhöhten SLAs für Azure HDInsight auf AKS-Clustern mit aktivierten Verfügbarkeitszonen.

Erstellen einer Ressource mit aktivierter Verfügbarkeitszone

Clusterpools Sie können bei der Erstellung von Clusterpools eine oder mehrere Verfügbarkeitszonen auswählen, nachdem Sie die Region ausgewählt haben.
Cluster Sie können bei der Erstellung von Clustern eine oder mehrere Verfügbarkeitszonen auswählen.

Fehlertoleranz

Um sich auf den Ausfall einer Verfügbarkeitszone vorzubereiten, empfiehlt es sich, eine Überkapazität an Diensten bereitzustellen, um sicherzustellen, dass Ihr Cluster den Kapazitätsverlust durch den Ausfall einer Verfügbarkeitszone verkraften kann und während zonenweiter Ausfälle ohne Leistungseinbußen weiter funktioniert. Wenn Sie z. B. 3 Verfügbarkeitszonen aktivieren, sollte Ihr Cluster einen Ausfall von 1/3 der Knoten tolerieren (aufgerundet auf die nächste ganze Zahl).

Zonenausfall

Der Dienst Azure HDInsight für AKS ist zonenredundant. Während eines zonenweiten Ausfalls sollte die Kundin oder der Kunde mit Leistungsminderung aufgrund von Kapazitätsverlusten rechnen. Kundinnen und Kunden können weiterhin neue Clusterpools und Cluster in den Verfügbarkeitszonen erstellen, die nicht betroffen sind. Vorhandene Cluster können mit reduzierter Kapazität funktionieren. In der Dokumentation werden Empfehlungen und bewährte Methoden für einzelne Open Source-Workloads bereitgestellt.

Notfallwiederherstellung und Geschäftskontinuität

Bei der Notfallwiederherstellung (DR) geht es um die Wiederherstellung nach Ereignissen mit schwerwiegenden Auswirkungen, z. B. Naturkatastrophen oder fehlerhaften Bereitstellungen, die zu Downtime und Datenverlust führen. Unabhängig von der Ursache ist das beste Mittel gegen einen Notfall ein gut definierter und getesteter Notfallplan und ein Anwendungsdesign, die Notfallwiederherstellung aktiv unterstützt. Bevor Sie mit der Erstellung Ihres Notfallwiederherstellungsplans beginnen, lesen Sie die Empfehlungen zum Entwerfen einer Notfallwiederherstellungsstrategie.

Bei DR verwendet Microsoft das Modell der gemeinsamen Verantwortung. In einem Modell der gemeinsamen Verantwortung stellt Microsoft sicher, dass die grundlegenden Infrastruktur- und Plattformdienste verfügbar sind. Gleichzeitig replizieren viele Azure-Dienste nicht automatisch Daten oder greifen automatisch auf eine ausgefallene Region zurück, um eine regionsübergreifende Replikation in eine andere aktivierte Region durchzuführen. Für diese Dienste sind Sie dafür verantwortlich, einen Notfallwiederherstellungsplan zu erstellen, der für Ihre Workload geeignet ist. Die meisten Dienste, die auf Azure Platform as a Service (PaaS)-Angeboten laufen, bieten Funktionen und Anleitungen zur Unterstützung von Notfallwiederherstellung und Sie können dienstspezifische Funktionen zur Unterstützung einer schnellen Wiederherstellung nutzen, um Ihren Notfallwiederherstellungsplan zu entwickeln.

Azure HDInsight wird in AKS-Steuerungsebene-Diensten und -Datenbanken in allen Regionen von Azure bereitgestellt. In diesen Regionen sind die Instanzen und Datenbankinstanzen von Azure HDInsight in AKS isoliert. Wenn ein Ausfall auf Ebene einer Region auftritt, ist eine Region ausgefallen. Alle Ressourcen in dieser Region, einschließlich RP (Resource Provider) von Azure HDInsight in AKS-Steuerungsebene, die Datenbank von Azure HDInsight in der AKS-Steuerungsebene und alle Kundencluster in dieser Region. In diesem Fall kann man nur warten, bis der Ausfall in der Region endet. Wenn der zonale Ausfall vollständig wiederhergestellt wird, ist Azure HDInsight auf dem AKS-Dienst wieder vorhanden, und alle Kundencluster sind wieder normal. Es ist möglich, dass nach dem Ausfall Probleme aufgrund von Dateninkonsistenzen auftreten und eine manuelle Korrektur auf der Grundlage Ihrer Anwendungsworkloads erforderlich ist.

Notfallwiederherstellung in mehreren Regionen

Azure HDInsight in AKS unterstützt derzeit kein regionsübergreifendes Failover. Für eine Verbesserung der Geschäftskontinuität mithilfe von regionsübergreifender Notfallwiederherstellung mit Hochverfügbarkeit sind komplexere und mit höheren Kosten verbundene Architekturstrukturen erforderlich. Kunden können ihre eigene Lösung entwickeln, um wichtige Daten und den Auftragsstatus in verschiedenen Regionen zu sichern.

Erkennung, Benachrichtigung und Verwaltung von Ausfällen

Verwenden Sie die Azure-Überwachungstools in HDInsight in AKS, um ungewöhnliches Verhalten im Cluster zu erkennen und entsprechende Warnmeldungen festzulegen. Sie können Log Analytics auf verschiedene Weise aktivieren und den verwalteten Prometheus-Dienst mit Azure Grafana-Dashboards für die Überwachung verwenden. Weitere Informationen finden Sie unter Azure Monitor-Integration.
Abonnieren Sie Azure-Integritätswarnungen, um über Dienstprobleme, geplante Wartungen sowie Integritäts- und Sicherheitsempfehlungen für ein Abonnement, einen Dienst oder eine Region benachrichtigt zu werden. Integritätsbenachrichtigungen, die die Problemursache und eine feste ETA enthalten, helfen Ihnen bei der besseren Ausführung von Failovern und Failbacks. Weitere Informationen finden Sie unter Service Health verwalten in der Dokumentation zu Azure Service Health.

Notfallwiederherstellung für eine einzelne Region

Derzeit verfügt Azure HDInsight in AKS nur über ein Standarddienstangebot, und Cluster werden in einer einzigen Region dargestellt. Kundinnen und Kunden sind für die Einstellungen zur Wiederherstellung nach einem Katastrophenfall je nach den Anforderungen der Anwendung verantwortlich.

Kapazität und proaktive Resilienz der Notfallwiederherstellung

Azure HDInsight in AKS und seine Kunden verwenden das Modell der gemeinsamen Verantwortung. Das heißt, dass die Kundin bzw. der Kunde für die Anforderungen der Notfallwiederherstellung für den Dienst verantwortlich ist, den sie oder er bereitstellt und steuert. Um sicherzustellen, dass die Wiederherstellung proaktiv ist, sollten Kunden Sekundärdateien immer vorab bereitstellen, da es keine Kapazitätsgarantie zur Zeit der Auswirkungen für diejenigen gibt, die nicht vorab zugewiesen wurden.

Im Gegensatz zu HDInsight benötigen die in HDInsight auf AKS-Clustern verwendeten VMs das gleiche Kontingent wie Azure-VMs. Weitere Informationen finden Sie unter Kapazitätsplanung.

Weitere Informationen zu den in diesem Artikel erörterten Themen finden Sie unter:

Freigeben über

Zuverlässigkeit in Azure HDInsight in Azure Kubernetes Service

Unterstützung für Verfügbarkeitszonen

Voraussetzungen

SLA-Verbesserungen

Erstellen einer Ressource mit aktivierter Verfügbarkeitszone

Fehlertoleranz

Zonenausfall

Notfallwiederherstellung und Geschäftskontinuität

Notfallwiederherstellung in mehreren Regionen

Erkennung, Benachrichtigung und Verwaltung von Ausfällen

Notfallwiederherstellung für eine einzelne Region

Kapazität und proaktive Resilienz der Notfallwiederherstellung

Feedback

Zusätzliche Ressourcen

Freigeben über

Zuverlässigkeit in Azure HDInsight in Azure Kubernetes Service

Unterstützung für Verfügbarkeitszonen

Voraussetzungen

SLA-Verbesserungen

Erstellen einer Ressource mit aktivierter Verfügbarkeitszone

Fehlertoleranz

Zonenausfall

Notfallwiederherstellung und Geschäftskontinuität

Notfallwiederherstellung in mehreren Regionen

Erkennung, Benachrichtigung und Verwaltung von Ausfällen

Notfallwiederherstellung für eine einzelne Region

Kapazität und proaktive Resilienz der Notfallwiederherstellung

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen