Azure Kubernetes Service (AKS)-knooppunt automatisch herstellen

AKS bewaakt continu de status van werkknooppunten en voert automatisch knooppuntherstel uit als ze beschadigd raken. Het Vm-platform (Virtuele Azure-machine) voert onderhoud uit op VM's die problemen ondervinden.

AKS- en Azure-VM's werken samen om serviceonderbrekingen voor clusters te minimaliseren.

In dit document leert u hoe de functionaliteit voor automatisch herstellen van knooppunten zich gedraagt voor zowel Windows als Linux-knooppunten.

Hoe AKS controleert op beschadigde knooppunten

AKS gebruikt de volgende regels om te bepalen of een knooppunt beschadigd is en moet worden hersteld:

  • Het knooppunt rapporteert de NotReady-status bij opeenvolgende controles binnen een tijdsbestek van 10 minuten.
  • Het knooppunt rapporteert binnen 10 minuten geen status.

U kunt de status van uw knooppunten handmatig controleren met kubectl.

kubectl get nodes

Hoe automatisch herstellen werkt

Notitie

AKS initieert herstelbewerkingen met het gebruikersaccount aks-remediator.

Als AKS een beschadigd knooppunt identificeert dat 10 minuten in orde blijft, voert AKS de volgende acties uit:

  1. Start het knooppunt opnieuw op.
  2. Als het opnieuw opstarten mislukt, maakt u een installatiekopie van het knooppunt.
  3. Als de installatiekopie mislukt, implementeert u het knooppunt opnieuw.

Alternatieve herstelbewerkingen worden onderzocht door AKS-technici als automatisch herstellen mislukt.

Als AKS tijdens een statuscontrole meerdere beschadigde knooppunten vindt, wordt elk knooppunt afzonderlijk hersteld voordat een andere reparatie begint.

Autodrain van knooppunt

Geplande gebeurtenissen kunnen plaatsvinden op de onderliggende virtuele machines (VM's) in een van uw knooppuntgroepen. Voor spot-knooppuntgroepen kunnen geplande gebeurtenissen een preempt-knooppuntgebeurtenis voor het knooppunt veroorzaken. Bepaalde knooppuntgebeurtenissen, zoals preempt, zorgen ervoor dat automatisch knooppuntdrain van AKS-knooppunt probeert een cordon uit te voeren en het betreffende knooppunt leeg te maken, waardoor een respijtieve herschikaanpassing van betrokken workloads op dat knooppunt mogelijk is. Als dit gebeurt, ziet u mogelijk dat het knooppunt een taint ontvangt met 'remediator.aks.microsoft.com/unschedulable', vanwege 'kubernetes.azure.com/scalesetpriority: spot'.

In de volgende tabel ziet u de knooppunt-gebeurtenissen en de acties die ze veroorzaken voor autodrain van AKS-knooppunten.

Gebeurtenis Beschrijving Actie
Bevriezen De VIRTUELE machine is gepland om een paar seconden te onderbreken. CPU- en netwerkconnectiviteit kunnen worden onderbroken, maar er is geen invloed op het geheugen of het openen van bestanden Geen actie
Opnieuw opstarten De VIRTUELE machine is gepland voor opnieuw opstarten. Het niet-permanente geheugen van de VIRTUELE machine gaat verloren. Geen actie
Opnieuw implementeren De VIRTUELE machine is gepland om naar een ander knooppunt te gaan. De tijdelijke schijven van de VIRTUELE machine gaan verloren. Cordon en afvoer
Preempt De spot-VM wordt verwijderd. De tijdelijke schijven van de VIRTUELE machine gaan verloren. Cordon en afvoer
Terminate De VIRTUELE machine wordt gepland om te worden verwijderd. Cordon en afvoer

Beperkingen

In veel gevallen kan AKS bepalen of een knooppunt beschadigd is en probeert het probleem te herstellen, maar er zijn gevallen waarin AKS het probleem niet kan herstellen of niet kan detecteren dat er een probleem is. AKS kan bijvoorbeeld geen problemen detecteren als de status van een knooppunt niet wordt gerapporteerd vanwege een fout in de netwerkconfiguratie of niet in eerste instantie is geregistreerd als een gezond knooppunt.

Volgende stappen

Gebruik Beschikbaarheidszones om hoge beschikbaarheid te verhogen met uw AKS-clusterworkloads.