Automatisches Reparieren von AKS-Knoten (Azure Kubernetes Service)

AKS überwacht den Integritätszustand von Workerknoten kontinuierlich und führt im Falle eines fehlerhaften Zustands automatisch eine Knotenreparatur durch. Von der Azure-VM-Plattform werden Wartungsmaßnahmen für virtuelle Computer durchgeführt, auf denen Probleme auftreten.

AKS und virtuelle Azure-Computer arbeiten zusammen, um Dienstunterbrechungen für Cluster zu minimieren.

Dieses Dokument enthält Informationen zum Verhalten der automatischen Knotenreparatur für Windows- und Linux-Knoten.

Überprüfung auf fehlerhafte Knoten durch AKS

Von AKS wird anhand der folgenden Regeln ermittelt, ob ein Knoten fehlerhaft ist und repariert werden muss:

  • Der Knoten meldet bei aufeinanderfolgenden Überprüfungen innerhalb eines Zeitraums von zehn Minuten den Status NotReady.
  • Der Knoten meldet innerhalb von zehn Minuten keinen Status.

Sie können den Integritätszustand Ihrer Knoten mit kubectl manuell überprüfen.

kubectl get nodes

Funktionsweise der automatischen Reparatur

Hinweis

AKS initiiert Reparaturvorgänge mit dem Benutzerkonto aks-remediator.

Wenn von AKS ein fehlerhafter Knoten identifiziert wird und dieser Knoten zehn Minuten lang fehlerhaft ist, werden folgende Aktionen ausgeführt:

  1. Neustarten des Knotens
  2. Durchführen eines Reimagings, falls der Neustart nicht erfolgreich war
  3. Wenn das Reimaging keinen Erfolg hatte, stellen Sie den Knoten erneut bereit.

Sollte die automatische Reparatur nicht erfolgreich sein, werden von AKS-Technikern alternative Abhilfemaßnahmen geprüft.

Sind bei einer Integritätsüberprüfung mehrere Knoten fehlerhaft, werden die Knoten einzeln nacheinander repariert.

Automatischer Knotenausgleich

Geplante Ereignisse können auf den zugrunde liegenden virtuellen Computern (VMs) in einem Ihrer Knotenpools auftreten. Bei Spot-Knotenpools können geplante Ereignisse zu einem vorzeitigen Knotenereignis für den Knoten führen. Bestimmte Knotenereignisse, z. B. vorzeitige Vorgänge, führen dazu, dass der automatische AKS-Knotenausgleich versucht, den betroffenen Knoten abzusperren und auszugleichen. Dadurch wird eine ordnungsgemäßen Neuplanung aller betroffenen Workloads auf diesem Knoten ermöglicht. Wenn dies geschieht, beachten Sie möglicherweise den Knoten, um einen Makel mit remediator.aks.microsoft.com/unschedulable aufgrund von kubernetes.azure.com/scalesetpriority: Spot zu erhalten.

In der folgenden Tabelle sind die Knotenereignisse und die Aktionen aufgeführt, die beim automatischen AKS-Knotenausgleich erfolgen.

Ereignis Beschreibung Aktion
Freeze Es ist geplant, die VM mehrere Sekunden anzuhalten. Der Prozessor und die Netzwerkverbindung werden möglicherweise angehalten, es gibt jedoch keine Auswirkungen auf den Arbeitsspeicher oder geöffnete Dateien. Keine Aktion
Reboot Die VM ist für einen Neustart geplant. Der nicht persistente Arbeitsspeicher der VM geht verloren. Keine Aktion
Erneute Bereitstellung Die VM ist für eine Verschiebung auf einen anderen Knoten geplant. Die kurzlebigen Datenträger der VM gehen verloren. Absperren und Ausgleichen
Preempt Die Spot-VM wird gelöscht. Die kurzlebigen Datenträger der VM gehen verloren. Absperren und Ausgleichen
Terminate Die Löschung der VM wird geplant. Absperren und Ausgleichen

Einschränkungen

In vielen Fällen kann AKS ermitteln, ob ein Knoten fehlerhaft ist, und das Problem zu beheben versuchen. Es gibt jedoch Fälle, in denen AKS das Problem entweder nicht beheben kann oder nicht erkennt, dass ein Problem vorliegt. AKS kann beispielsweise keine Probleme erkennen, wenn ein Knotenstatus aufgrund eines Fehlers in der Netzwerkkonfiguration nicht gemeldet wird, oder weil dieser sich anfänglich nicht als fehlerfreier Knoten registrieren konnte.

Nächste Schritte

Verwenden Sie Verfügbarkeitszonen, um die Hochverfügbarkeit Ihrer AKS-Clusterworkloads zu erhöhen.