automatická oprava uzlu Azure Kubernetes Service (AKS)

AKS průběžně monitoruje stav pracovních uzlů a provádí automatickou opravu uzlů, pokud nejsou v pořádku. Platforma virtuálního počítače Azure provádí údržbu na virtuálních počítačích, u kterých dochází k problémům.

AKS a virtuální počítače Azure spolupracují a minimalizují přerušení služeb pro clustery.

V tomto dokumentu se dozvíte, jak se funkce automatické opravy uzlů chová pro uzly Windows i Linux.

Jak AKS kontroluje uzly, které nejsou v pořádku

AKS používá následující pravidla k určení, jestli uzel není v pořádku a potřebuje opravu:

  • Uzel hlásí stav NotReady v po sobě jdoucích kontrolách během 10minutového časového rámce.
  • Uzel nehlásí žádný stav do 10 minut.

Stav uzlů můžete zkontrolovat ručně pomocí kubectl.

kubectl get nodes

Jak funguje automatická oprava

Poznámka

AKS inicializuje operace opravy pomocí uživatelského účtu aks-remediator.

Pokud AKS identifikuje uzel, který není v pořádku po dobu 10 minut, AKS provede následující akce:

  1. Restartujte uzel.
  2. Pokud restartování není úspěšné, znovu ho naimažte.
  3. Pokud je opětovné naimage neúspěšné, znovu nasaďte uzel.

Alternativní nápravy prošetřují technici AKS, pokud automatické opravy nejsou úspěšné.

Pokud AKS během kontroly stavu najde více uzlů, které nejsou v pořádku, každý uzel se opraví jednotlivě před zahájením jiné opravy.

Autodrain uzlu

Naplánované události se můžou vyskytnout na základních virtuálních počítačích v libovolném fondu uzlů. U fondů spotových uzlů můžou naplánované události způsobit událost uzlu předem . Některé události uzlů, jako je například předběžná kontrola, způsobují, že se uzel AKS automaticky zachytává, aby se pokusil o cordon a vyprázdnil ovlivněný uzel, což umožňuje řádné přeplánování všech ovlivněných úloh na tomto uzlu. Když k tomu dojde, můžete si všimnout, že uzel obdrží taint s "remediator.aks.microsoft.com/unschedulable", protože "kubernetes.azure.com/scalesetpriority: spot".

Následující tabulka ukazuje události uzlů a akce, které způsobují automatické zachytnutí uzlu AKS.

Událost Popis Akce
Zmrazit Virtuální počítač se plánuje pozastavit na několik sekund. Připojení procesoru a sítě může být pozastavené, ale na paměť ani otevřené soubory nemá žádný vliv. Žádná akce
Restartování Virtuální počítač je naplánovaný na restartování. Neztrácená paměť virtuálního počítače se ztratí. Žádná akce
Opětovné nasazení Virtuální počítač se plánuje přesunout do jiného uzlu. Dočasné disky virtuálního počítače se ztratí. Cordon a vyprázdnění
Předběžná verze Spotové virtuální počítače se odstraní. Dočasné disky virtuálního počítače se ztratí. Cordon a vyprázdnění
Terminate (Ukončení) Virtuální počítač se plánuje odstranit. Cordon a vyprázdnění

Omezení

V mnoha případech může AKS určit, jestli uzel není v pořádku, a pokusí se problém opravit, ale existují případy, kdy AKS problém buď nemůže opravit, nebo nemůže zjistit, že došlo k problému. AKS například nemůže rozpoznat problémy, pokud se stav uzlu nehlásí kvůli chybě v konfiguraci sítě nebo se nepodařilo nejprve zaregistrovat jako uzel, který je v pořádku.

Další kroky

Pomocí Zóny dostupnosti můžete zvýšit vysokou dostupnost úloh clusteru AKS.