Freigeben über


Zuverlässigkeit in Der Azure VMware-Lösung

Azure VMware Solution bietet private Clouds, die VMware vSphere-Cluster enthalten, die aus dedizierter Bare-Metal Azure-Infrastruktur erstellt wurden. Sie können Workloads aus Ihren lokalen Umgebungen migrieren, neue virtuelle Computer (VMs) bereitstellen und Azure-Dienste aus Ihren privaten Clouds nutzen. Sie können eine Kombination aus VMware- und Azure-nativen Funktionen verwenden, um hohe Verfügbarkeit und Ausfallsicherheit Ihrer Workloads zu ermöglichen.

Wenn Sie Azure verwenden, ist Zuverlässigkeit eine gemeinsame Verantwortung. Microsoft bietet eine Reihe von Funktionen zur Unterstützung von Resilienz und Wiederherstellung. Sie sind dafür verantwortlich, zu verstehen, wie diese Funktionen in allen von Ihnen verwendeten Diensten funktionieren, und die Funktionen auswählen, die Sie benötigen, um Ihre Geschäftsziele und Uptime-Ziele zu erfüllen.

In diesem Artikel wird beschrieben, wie Sie Azure VMware-Lösung für potenzielle Ausfälle und Probleme widerstandsfähig machen, einschließlich vorübergehender Fehler, Ausfall der Verfügbarkeitszone und Regionsausfälle. Außerdem wird beschrieben, wie Sie Sicherungen verwenden können, um aus anderen Arten von Problemen wiederherzustellen, und hebt einige wichtige Informationen zum Azure VMware Solution Service Level Agreement (SLA) hervor.

Bereitstellungsempfehlungen für die Produktion

Azure VMware-Lösungsbereitstellungen erfordern eine sorgfältige Planung in verschiedenen Bereichen und erfordern häufig mehrere Azure-Dienste. Ausführliche Anleitungen finden Sie unter Azure VMware Solution Workloads im Well-Architected Framework.

Übersicht über die Zuverlässigkeitsarchitektur

Azure VMware Solution verwendet eine hyperkonvergierte Infrastruktur mit VMware vSphere-Clustern.

Wenn Sie Azure VMware-Lösung bereitstellen, stellen Sie eine private Cloud bereit, die über einen oder mehrere Cluster verfügt. Jeder Cluster enthält ESXi-Hosts, die Compute, Speicher über vSAN und Netzwerk über VMware NSX bereitstellen. Es gibt zwei Generationen von Azure VMware-Lösung:

  • Gen 1 verwendet spezielle Bare-Metal-Hardware für Knoten und verwendet dedizierte Netzwerkansätze. Weitere Informationen zu den wichtigsten Konzepten finden Sie unter Private Cloud- und Clusterkonzepte für Azure VMware Solution.
  • Gen 2 verwendet standardmäßige Virtuelle Azure-Computertypen und virtuelle Azure-Netzwerke. Diese Architektur vereinfacht die Netzwerkarchitektur, verbessert die Geschwindigkeit der Datenübertragung, verringert die Latenz für Workloads und verbessert die Leistung beim Zugriff auf andere Azure-Dienste.

Fehlertoleranz

Azure VMware Solution bietet mehrere Mechanismen zum Behandeln von Fehlern auf Infrastruktur- und Anwendungsebene:

  • vSphere High Availability (HA): vSphere HA überwacht ESXi-Hosts und VMs. Wenn ein Host fehlschlägt, werden betroffene VMs auf fehlerfreien Hosts automatisch neu gestartet. vSphere HA ist standardmäßig aktiviert und reserviert Compute- und Arbeitsspeicherkapazität für einen einzelnen Knotenfehler.

  • vSAN-Fehlertoleranz: vSAN-Speicherrichtlinien schützen vor vorübergehenden Fehlern auf Speicherebene, indem mehrere Kopien von Daten auf hostsübergreifend verwaltet werden. Wenn bei einem Speicherpfad oder Datenträger vorübergehende Probleme auftreten, verarbeitet vSAN automatisch Failover auf fehlerfreie Speicherpfade.

  • Netzwerkredundanz: Azure VMware Solution bietet redundante Netzwerkpfade und mehrere VMkernel-Netzwerkadapter zur Behandlung vorübergehender Fehler auf Netzwerkebene.

Resilienz für vorübergehende Fehler

Vorübergehende Fehler sind kurze, zeitweilige Fehler in Komponenten. Sie treten häufig in einer verteilten Umgebung wie der Cloud auf und sind ein normaler Bestandteil von Vorgängen. Vorübergehende Fehler korrigieren sich nach kurzer Zeit. Es ist wichtig, dass Ihre Anwendungen vorübergehende Fehler behandeln können, in der Regel durch Wiederholen betroffener Anforderungen.

Alle in der Cloud gehosteten Anwendungen sollten die Anleitung zur vorübergehenden Fehlerbehandlung von Azure befolgen, wenn sie mit cloudgehosteten APIs, Datenbanken und anderen Komponenten kommunizieren. Weitere Informationen finden Sie unter Empfehlungen zur Behandlung vorübergehender Fehler.

Implementieren Sie für Anwendungen, die auf virtuellen Azure VMware-Lösungs-VMs ausgeführt werden, standardmäßige vorübergehende Fehlerbehandlungsmethoden:

  • Konfigurieren Sie geeignete Wiederholungsrichtlinien mit exponentiellem Backoff.
  • Verwenden von Schaltkreistrennmustern für externe Dienstaufrufe
  • Überwachen der Anwendungsgesundheit und Implementierung von sanfter Degradierung
  • Entwerfen Sie zustandslose Anwendungen, soweit möglich, um die Auswirkungen von VM-Neustarts zu verringern

Ausfallsicherheit bei Ausfällen von Verfügbarkeitszonen

Verfügbarkeitszonen sind physisch getrennte Gruppen von Rechenzentren innerhalb einer Azure-Region. Wenn eine Zone ausfällt, erfolgt ein Failover der Dienste zu einer der verbleibenden Zonen.

Azure VMware Solution Gen 1 unterstützt Verfügbarkeitszonen durch gestreckte Cluster, die ESXi-Hosts über zwei Verfügbarkeitszonen innerhalb einer Region verteilen. Microsoft wählt die zu verwendenden Zonen aus. Ihr Cluster wird in einer aktiven Konfiguration über die beiden Zonen hinweg ausgeführt, und vSAN umfasst auch mehrere Zonen. Sie können festlegen, ob jede Workload in einer oder zwei Zonen bereitgestellt wird.

Ein Zeuge-Knoten wird automatisch in einer dritten Verfügbarkeitszone bereitgestellt, um in Split-Brain-Szenarien ein Quorum sicherzustellen. Microsoft verwaltet den Zeugenknoten automatisch.

Abbildung: Ein verwalteter vSAN Stretched Cluster, der in einer dritten Verfügbarkeitszone erstellt wurde, wobei die Daten in alle drei Zonen kopiert wurden.

Ein Standardcluster ist ein Cluster, der nicht über Zonen verteilt ist. In einem Standardcluster gelten der Cluster und alle seine ESXi-Hosts als nichtzonal oder regional. Nichtzonale Cluster können in einer beliebigen Verfügbarkeitszone innerhalb der Region platziert werden, und Microsoft wählt die Zone aus. Wenn eine Verfügbarkeitszone in der Region eine Störung erlebt, befinden sich nicht zonale Cluster und Hosts möglicherweise in der betroffenen Zone und können Ausfallzeiten erleben.

Azure VMware Solution Gen 2 unterstützt zonalbereitstellungen privater Clouds. Wenn Sie eine zonal private Cloud konfigurieren, werden alle Cluster und alle ihre ESXi-Hosts in einer einzelnen Verfügbarkeitszone bereitgestellt, die Sie auswählen.

Eine zonal private Cloud schützt nicht vor Verfügbarkeitszonenfehlern. Sie können mehrere private Clouds in separaten Verfügbarkeitszonen für eine höhere Ausfallsicherheit bereitstellen, aber Sie sind dafür verantwortlich, jede private Cloud unabhängig bereitzustellen und zu konfigurieren.

Wenn Sie keine Verfügbarkeitszone auswählen, werden Ihre private Cloud, ihre Cluster und alle ihre ESXi-Hosts als nicht zonen- oder regional angesehen. Nichtzonale Cluster können in einer beliebigen Verfügbarkeitszone innerhalb der Region platziert werden, und Microsoft wählt die Zone aus. Wenn eine Verfügbarkeitszone in der Region einen Ausfall erlebt, können nichtzonale Cluster, die sich in der betroffenen Zone befinden, von Ausfallzeiten betroffen sein.

Um Informationen zur Verfügbarkeitszonenunterstützung für andere Generationen anzuzeigen, wählen Sie die entsprechende Generation am Anfang dieser Seite aus.

Anforderungen

  • Regionsunterstützung: Gestreckte Cluster sind in ausgewählten Azure-Regionen verfügbar, die die Gestreckte Clusterkonfiguration unterstützen. Überprüfen Sie die Zuordnungstabelle der Azure-Regionenverfügbarkeitszonen zu Host-Typen auf aktuelle Regionsunterstützung.

  • Mindesthosts: Stellen Sie mindestens sechs Hosts über zwei Verfügbarkeitszonen (drei Hosts pro Zone) bereit, um die Gestreckte Clusterkonfiguration zu aktivieren. Wenn Sie verkleinern oder vergrößern, müssen Sie paarweise skalieren, sodass die Anzahl der Hosts in jeder Zone gleich ist.

  • Host-SKUs: Gestreckte Cluster werden mit AV36-, AV36P- und AV52-Hosttypen unterstützt. Die AV64-SKU wird bei gestreckten Clustern nicht unterstützt.

Regionsunterstützung: Sie können zonal private Clouds in Regionen bereitstellen, die Azure VMware Solution Gen 2 unterstützen und auch Verfügbarkeitszonen unterstützen.

Überlegungen

Jede Verfügbarkeitszone in einer Region kann bestimmte Hosttypen unterstützen. Eine detaillierte Liste der in den einzelnen Zonen verfügbaren Hosttypen finden Sie in der Verfügbarkeitszone der Azure-Region für die Hosttypzuordnungstabelle.

Kosten

Es entstehen Kosten für jeden Knoten im Cluster, unabhängig von der Konfiguration der Verfügbarkeitszone des Clusters. Ausführliche Preisinformationen finden Sie unter Azure VMware Solution Pricing.

Konfigurieren der Unterstützung von Verfügbarkeitszonen

  • Bereitstellen eines neuen Clusters: Wenn Sie eine neue private Azure VMware Solution-Cloud in einer unterstützten Region erstellen, können Sie sie während der Bereitstellung als gestreckten Cluster konfigurieren. Diese Konfiguration verteilt Hosts automatisch über zwei Verfügbarkeitszonen. Weitere Informationen finden Sie unter Bereitstellen eines vSAN Stretched Clusters.

  • Vorhandene Cluster: Sie können keinen Standardcluster in einen gestreckten Cluster konvertieren oder einen gestreckten Cluster in einen Standardcluster konvertieren. Stattdessen müssen Sie einen neuen Cluster bereitstellen und Ihre Workloads migrieren.

  • Bereitstellen eines neuen Clusters: Wenn Sie eine neue private Azure VMware Solution-Cloud in einer unterstützten Region erstellen, können Sie dessen Verfügbarkeitszone auswählen.

  • Vorhandene Cluster: Sie können die Verfügbarkeitszonenkonfiguration eines vorhandenen Clusters nicht ändern. Stattdessen müssen Sie einen neuen Cluster bereitstellen und Ihre Workloads migrieren.

Verhalten, wenn alle Zonen fehlerfrei sind

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Ihr Cluster gestreckt wird und alle Verfügbarkeitszonen betriebsbereit sind.

  • Standortübergreifender Betrieb: VMs können auf Hosts in beiden Verfügbarkeitszonen ausgeführt werden. Die VM-Platzierung kann mithilfe von vSphere DRS-Affinitäts- und Antiaffinitätsregeln gesteuert werden, um die Leistungs- oder Verfügbarkeitsanforderungen zu optimieren.

  • Regionsübergreifende Datenreplikation: vSAN repliziert Daten synchron über Verfügbarkeitszonen hinweg. Jeder Schreibvorgang wird vor Abschluss von beiden Zonen bestätigt und stellt eine konsistente Datenintegrität sicher.

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Ihr Cluster in einer privaten Zone bereitgestellt wird und alle Verfügbarkeitszonen betriebsbereit sind.

  • Standortübergreifender Betrieb: Virtuelle Computer werden auf Hosts innerhalb der Verfügbarkeitszone des Clusters ausgeführt.

  • Regionsübergreifende Datenreplikation: Es werden keine Daten in eine andere Zone repliziert.

Verhalten bei einem Zoneausfall

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Ihr Cluster gestreckt wird und ein Ausfall der Verfügbarkeitszone auftritt.

  • Erkennung und Reaktion: Azure VMware Solution verwaltet die Reaktion auf Infrastrukturebene auf Zonenfehler. vSphere HA erkennt zonenfehler automatisch und initiiert bei Bedarf VM-Neustartprozeduren.
  • Benachrichtigung: Microsoft benachrichtigt Sie nicht automatisch, wenn eine Zone deaktiviert ist. Sie können jedoch Azure Resource Health verwenden, um den Status einer einzelnen Ressource zu überwachen, und Sie können Ressourcenintegritätswarnungen einrichten, um Sie über Probleme zu informieren. Sie können auch Azure Service Health verwenden, um die allgemeine Integrität des Diensts zu verstehen, einschließlich jeglicher Zonenfehler, und Sie können Dienststatuswarnungen einrichten, um Sie über Probleme zu informieren.
  • Aktive Anforderungen: Alle virtuellen Computer, die in der Zone der fehlgeschlagenen Verfügbarkeit ausgeführt werden, werden auf Hosts in der überlebenden Verfügbarkeitszone neu gestartet. Aktive Anfragen und Verbindungen zu betroffenen VMs werden beendet, und die Clients müssen sie erneut versuchen.

  • Erwartete Ausfallzeiten: Die Zeit für den Neustart fehlgeschlagener VMs in der fehlerfreien Zone ist in der Regel ein paar Minuten, abhängig von der VM-Konfiguration und den Startprozeduren. Der gestreckte Cluster bleibt mit reduzierter Kapazität funktionsfähig.

    Wenn die Fehlerverfügbarkeitszone den Zeugenknoten enthält, wird der Zeuge nicht erreichbar. Solange genügend Datenreplikate verfügbar sind, funktionieren die Datenhosts und die Ausführung von Workloads ohne sofortigen Datenverlust weiter. vSAN verliert jedoch seine Quorumfunktion in diesem Zustand, was verhindert, dass sichere Platzierungs- und Wiederherstellungsentscheidungen getroffen werden können. Außerdem werden bestimmte Vorgänge blockiert, wie das Einschalten von VMs nach Fehlern, das Rebalancing und Reparaturen.

  • Erwarteter Datenverlust: Da vSAN die synchrone Replikation zwischen Zonen verwendet, wird während eines Zonenfehlers kein Datenverlust erwartet.

  • Umverteilung: vSphere DRS verteilt VM-Workloads automatisch auf die überlebende Verfügbarkeitszone. Das Routing des Netzwerkdatenverkehrs über VMware ELEMENTS passt sich automatisch an die neue VM-Platzierung an.

In diesem Abschnitt wird beschrieben, was Sie erwarten können, wenn Ihr Cluster in einer zonalen privaten Cloud bereitgestellt wird und ein Ausfall der Verfügbarkeitszone auftritt.

  • Erkennung und Reaktion: Sie müssen den Verlust einer Verfügbarkeitszone erkennen. Bei Bedarf können Sie ein Failover zu einem sekundären Cluster initiieren, den Sie in einer anderen Verfügbarkeitszone vorkonfiguriert haben.
  • Benachrichtigung: Microsoft benachrichtigt Sie nicht automatisch, wenn eine Zone deaktiviert ist. Sie können jedoch Azure Resource Health verwenden, um den Status einer einzelnen Ressource zu überwachen, und Sie können Ressourcenintegritätswarnungen einrichten, um Sie über Probleme zu informieren. Sie können auch Azure Service Health verwenden, um die allgemeine Integrität des Diensts zu verstehen, einschließlich jeglicher Zonenfehler, und Sie können Dienststatuswarnungen einrichten, um Sie über Probleme zu informieren.
  • Aktive Anfragen: Aktive Anfragen und Verbindungen zu betroffenen VMs werden beendet, und Clients sind dafür verantwortlich, sie erneut zu versuchen.

  • Erwartete Ausfallzeiten: Wenn eine Zone nicht verfügbar ist, sind Ihr Cluster und seine Workloads nicht verfügbar, bis die Verfügbarkeitszone wiederhergestellt wird.

  • Erwartetes Datenproblem: Die Daten in der betroffenen Zone sind nicht verfügbar, bis die Zone wiederhergestellt ist.

  • Umverteilung: Sie sind für den Wechsel des Datenverkehrs zu anderen Clustern in fehlerfreien Zonen verantwortlich, falls erforderlich.

Zonenwiederherstellung

Wenn die Verfügbarkeitszone wiederhergestellt wird, kann vSphere DRS VMs optional basierend auf Ihren DRS-Konfigurations- und Affinitätsregeln wieder auf die wiederhergestellte Zone verteilen. Sie können die Platzierung von virtuellen Computern auch manuell mithilfe von vMotion-Vorgängen steuern.

Wenn die Verfügbarkeitszone wiederhergestellt wird, sind Cluster und Hosts in der Zone wieder verfügbar. Sie sind für alle Zonenwiederherstellungsprozeduren und die Datensynchronisierung verantwortlich, die Ihre Workloads erfordern.

Test auf Zonenfehler

Sie können Zonenfehler simulieren, indem Sie:

  • Verwenden von vSphere, um Hosts in den Wartungsmodus zu versetzen, um Fehler auf Zonenebene zu simulieren.

  • Die Validierung, dass Sicherungs- und Überwachungssysteme auch bei simulierten Fehlern weiterhin funktionsfähig bleiben.

  • Testen der Anwendungsresilienz für VM-Neustarts und Netzwerkpfadänderungen, insbesondere wenn Sie über gestreckte Cluster verfügen oder Anwendungen über separate Cluster in verschiedenen Zonen hinweg bereitstellen.

Da Die Azure VMware-Lösung die Infrastrukturantwort auf Zonenfehler verwaltet, müssen Sie in erster Linie die Antwort Ihrer Anwendung auf VM-Neustarts testen.

Sie sind für jede Infrastrukturmaßnahme bei Zonenfehlern verantwortlich, wie z.B. das Failover auf einen anderen Kluster in einer anderen Zone oder Region. Stellen Sie sicher, dass Sie Ihre Antwortprozesse gründlich testen.

Widerstandsfähigkeit bei regionalen Ausfällen

Jeder Azure VMware Solution-Cluster wird in einer einzelnen Azure-Region bereitgestellt. Wenn die Region nicht verfügbar ist, werden Ihre private Cloud und alle darin enthaltenen Ressourcen nicht mehr verfügbar.

Sie können jedoch auch benutzerdefinierte Lösungen mit mehreren Regionen entwerfen, die unterschiedliche Ansätze kombinieren oder in Ihre vorhandene Infrastruktur integrieren, um Ihre spezifischen Geschäftsanforderungen und Wiederherstellungsziele zu erfüllen.

Benutzerdefinierte Lösungen mit mehreren Regionen für Resilienz

Um die Ausfallsicherheit mehrerer Regionen mit Azure VMware-Lösung zu erreichen, müssen Sie separate private Clouds in mehreren Regionen bereitstellen und Failover- und andere Notfallwiederherstellungslösungen implementieren.

Es gibt eine Reihe von Optionen, die unterschiedliche Anforderungen unterstützen. Weitere Informationen finden Sie unter Sicherungs- und Notfallwiederherstellungslösungen von Drittanbietern für Azure VMware: Einschränkungen, Kompatibilität und bekannte Probleme.

Sichern und Wiederherstellen

Azure VMware Solution sichert verwaltungskomponenten automatisch (vCenter Server, BCX Manager und HCX Manager, falls aktiviert). Um diese Verwaltungssicherungen wiederherzustellen, erstellen Sie eine Azure-Supportanfrage.

Für Ihre VM-Workloads unterstützt Azure VMware Solution mehrere Sicherungsansätze. Ausführliche Informationen finden Sie unter Backup-Lösungen für VMware-Lösungs-VMs.

Resilienz gegenüber Wartungsarbeiten an Diensten

Azure führt automatische Plattformwartung durch, um Sicherheitsupdates anzuwenden, neue Features bereitzustellen und die Zuverlässigkeit des Diensts zu verbessern.

Informationen zu den Auswirkungen, die wartung auf die Komponenten der Azure VMware-Lösung haben kann, und um die Komponenten zu verstehen, die Sie für die Wartung und die von Microsoft verwalteten Komponenten verantwortlich sind, finden Sie unter bewährte Methoden für die private Cloudwartung in Azure VMware Solution.

Sie können die Wartungsfenster für Ihren Cluster konfigurieren, um die Wahrscheinlichkeit der Wartung zu verringern, die sich auf Ihre Produktionsworkloads auswirkt. Weitere Informationen finden Sie unter Planen der Self-Service-Wartung für Azure VMware Solution (öffentliche Vorschau).

Service-Level-Vereinbarung

Der Service level agreement (SLA) für Azure-Dienste beschreibt die erwartete Verfügbarkeit jedes Diensts und die Bedingungen, die Ihre Lösung erfüllen muss, um diese Verfügbarkeitserwartungen zu erreichen. Weitere Informationen finden Sie unter SLAs für Onlinedienste.

Azure VMware Solution bietet unterschiedliche Verfügbarkeits-SLAs für die Workloadinfrastruktur und für Verwaltungsvorgänge.

Cluster, die als erweiterte Cluster konfiguriert sind, haben eine höhere SLA für die Verfügbarkeit der Workload-Infrastruktur.

Um sich jedoch für die Verfügbarkeits-SLAs zu qualifizieren, müssen Sie Ihren Cluster auf bestimmte Weise konfigurieren. Ausführliche Informationen finden Sie im SLA-Text.