Freigeben über


Kubernetes-Failoverszenarien auf einem Azure Stack Edge-Clustergerät

Der Kubernetes-Cluster wird in Form einer beliebten Open-Source-Plattform zur Orchestrierung von Containeranwendungen bereitgestellt. In diesem Artikel wird beschrieben, wie Kubernetes auf Ihrem Azure Stack Edge-Gerät mit zwei Knoten funktioniert, einschließlich der Fehlermodi und der entsprechenden Reaktionen des Geräts.

Informationen zu Kubernetes auf Azure Stack Edge-Geräten

Sie können einen Kubernetes-Cluster auf Ihrem Azure Stack Edge-Gerät erstellen, indem Sie die Computerolle konfigurieren. Wenn die Computerolle konfiguriert ist, wird der Kubernetes-Cluster mitsamt der Master- und Workerknoten für Sie bereitgestellt und konfiguriert. Dieser Cluster wird dann für die Workloadbereitstellung über kubectl, IoT Edge oder Azure Arc verwendet.

Das Azure Stack Edge-Gerät ist als 1-Knoten-Konfiguration oder 2-Knoten-Konfiguration verfügbar, die den Infrastrukturcluster darstellt. Der Kubernetes-Cluster wird separat vom Infrastrukturcluster implementiert und zusätzlich zum Infrastrukturcluster bereitgestellt. Der Infrastrukturcluster stellt den beständigen Speicher für Ihr Azure Stack Edge-Gerät bereit, der Kubernetes-Cluster ist ausschließlich für die Anwendungsorchestrierung verantwortlich.

Der Kubernetes-Cluster umfasst einen Masterknoten und Workerknoten. Bei den Kubernetes-Knoten innerhalb eines Clusters handelt es sich um virtuelle Computer, in denen Ihre Anwendungen und Cloudworkflows ausgeführt werden.

  • Der Kubernetes-Masterknoten ist dafür verantwortlich, den gewünschten Zustand für Ihren Cluster aufrechtzuerhalten. Der Masterknoten steuert auch den Workerknoten.
  • Die Workerknoten führen die Containeranwendungen aus.

Kubernetes-Cluster auf einem Gerät mit zwei Knoten

Der Kubernetes-Cluster auf dem Gerät mit zwei Knoten verfügt über einen Masterknoten und zwei Workerknoten. Das Gerät mit zwei Knoten ist hoch verfügbar, und wenn einer der Knoten ausfällt, werden sowohl das Gerät als auch der Kubernetes-Cluster weiterhin ausgeführt. Weitere Informationen zur Kubernetes-Clusterarchitektur finden Sie unter Grundlegende Kubernetes-Konzepte.

Auf einem Azure Stack Edge-Gerät mit zwei Knoten werden die Kubernetes-Master-VM und eine Kubernetes-Worker-VM auf Knoten A des Geräts ausgeführt. Auf Knoten B wird eine einzelne Kubernetes-Worker-VM ausgeführt.

Jede Worker-VM im Kubernetes-Cluster ist eine angeheftete Hyper-V-VM. Eine angeheftete VM ist an den spezifischen Knoten gebunden, auf dem sie ausgeführt wird. Wenn Knoten A auf dem Gerät ausfällt, wird für die Master-VM ein Failover auf Knoten B ausgeführt. Für die Worker-VM auf Knoten A, bei der es sich um eine angeheftete VM handelt, wird jedoch kein Failover auf Knoten B und umgekehrt ausgeführt. Stattdessen werden die Pods der Worker-VM auf Knoten A auf Knoten B neu ausgeglichen.

Damit die neu ausgeglichenen Pods über genügend Kapazität zur Ausführung auf Geräteknoten B verfügen, erzwingt das System, dass nicht mehr als 50 % der Kapazität jedes ASE-Knotens während regulärer Vorgänge im Azure Stack Edge-Cluster mit zwei Knoten genutzt werden. Diese Kapazitätsnutzung erfolgt auf Grundlage der bestmöglichen Leistung, und es gibt Situationen (z. B. Workloads, die nicht verfügbare GPU-Ressourcen erfordern, wenn sie auf ASE-Knoten B neu ausgeglichen werden), in denen neu ausgeglichene Pods möglicherweise nicht über genügend Ressourcen für die Ausführung verfügen.

Diese Szenarien werden im nächsten Abschnitt zu Fehlermodi und Verhalten ausführlich behandelt.

Fehlermodi und Verhalten

Bei den Azure Stack Edge-Geräteknoten können unter bestimmten Bedingungen Fehler auftreten. Die verschiedenen Fehlermodi und die entsprechenden Reaktionen des Geräts sind in diesem Abschnitt in Tabellenform aufgelistet.

Fehler oder Neustarts von Azure Stack Edge-Knoten

Node Fehler Antworten
Knoten A hat Fehler
(keine Fehler bei Knoten B)
Folgende mögliche Fehler können auftreten:
  • Fehler bei beiden PSUs
  • Fehler bei Port 3 und/oder Port 4
  • Fehler bei Kernkomponente, einschließlich Hauptplatine, DIMM, Betriebssystemdatenträger
  • Fehler beim gesamten Knoten
    Jeder dieser Fehler führt zu folgenden Reaktionen:
    • Für die Kubernetes-Master-VM wird ein Failover von Knoten A auf Knoten B ausgeführt.
    • Es dauert einige Minuten, bis die Master-VM auf Knoten B ausgeführt wird.
    • Pods von Knoten A werden auf Knoten B neu ausgeglichen.
    • GPU-Workloads werden weiterhin ausgeführt, wenn GPU auf Knoten B verfügbar ist
    Knoten A neustarts
    (keine Fehler bei Knoten B)
    Neustart des Knotens Sobald Knoten A den Neustart abgeschlossen hat und die Worker-VM verfügbar ist, gleicht die Master-VM die Pods von Knoten B neu aus.
    Knoten B hat Fehler
    (keine Fehler bei Knoten A)
    Folgende mögliche Fehler können auftreten:
    • Fehler bei beiden PSUs
    • Fehler bei Port 3 und/oder Port 4
    • Fehler bei Kernkomponente, einschließlich Hauptplatine, DIMM, Betriebssystemdatenträger
    • Fehler beim gesamten Knoten
      Für jeden dieser Fehler werden folgende Antworten angezeigt:
      • Die Kubernetes-Master-VM gleicht Pods von Knoten B neu aus. Dies kann einige Minuten dauern.
      Knoten B neustartt
      (keine Fehler bei Knoten A)
      Neustart des Knotens Sobald Knoten B den Neustart abgeschlossen hat und die Worker-VM verfügbar ist, gleicht die Master-VM die Pods von Knoten B neu aus.

      Updates von Azure Stack Edge-Knoten

      Updatetyp Antworten
      Geräteknotenupdate Auf Geräteknoten werden parallele Updates angewendet, und die Knoten werden neu gestartet.
      Kubernetes-Dienstupdate Das Kubernetes-Dienstupdate umfasst:
      • Failover der Kubernetes-Master-VM von Geräteknoten A auf Geräteknoten B
      • Update des Kubernetes-Masters
      • Updates der Kubernetes-Workerknoten (nicht unbedingt in dieser Reihenfolge)
      Der gesamte Updateprozess kann 30 Minuten oder länger dauern. Während dieses Zeitfensters ist der Kubernetes-Cluster für alle Verwaltungsvorgänge verfügbar (z. B. das Bereitstellen einer neuen Workload). Obwohl Pods während des Updates vom Geräteknoten entfernt werden, können Workloads während dieses Prozesses mehrere Sekunden offline sein.

      Nächste Schritte