Delen via


Kubernetes-failoverscenario's op een geclusterd Azure Stack Edge-apparaat

Kubernetes-cluster wordt geïmplementeerd als een populair opensource-platform voor het organiseren van toepassingen in containers. In dit artikel wordt beschreven hoe Kubernetes werkt op uw Azure Stack Edge-apparaat met twee knooppunten, inclusief de foutmodi en de bijbehorende apparaatreacties.

Over Kubernetes in Azure Stack Edge

Op uw Azure Stack Edge-apparaat kunt u een Kubernetes-cluster maken door de berekening te configureren. Wanneer de rekenrol is geconfigureerd, worden het Kubernetes-cluster, inclusief de hoofd- en werkknooppunten, allemaal voor u geïmplementeerd en geconfigureerd. Dit cluster wordt vervolgens gebruikt voor workloadimplementatie via kubectlIoT Edge of Azure Arc.

Het Azure Stack Edge-apparaat is beschikbaar als een configuratie van 1 knooppunt of een configuratie met twee knooppunten die het infrastructuurcluster vormen. Het Kubernetes-cluster staat los van het infrastructuurcluster en wordt bovenop het infrastructuurcluster geïmplementeerd. Het infrastructuurcluster biedt de permanente opslag voor uw Azure Stack Edge-apparaat, terwijl het Kubernetes-cluster alleen verantwoordelijk is voor toepassingsindeling.

Het Kubernetes-cluster bestaat uit een hoofdknooppunt en werkknooppunten. De Kubernetes-knooppunten in een cluster zijn virtuele machines waarop uw toepassingen en cloudwerkstromen worden uitgevoerd.

  • Het Kubernetes-hoofdknooppunt is verantwoordelijk voor het onderhouden van de gewenste status voor uw cluster. Het hoofdknooppunt bepaalt ook het werkknooppunt.
  • De werkknooppunten voeren de toepassingen in containers uit.

Kubernetes-cluster op apparaat met twee knooppunten

Het Kubernetes-cluster op het apparaat met twee knooppunten heeft één hoofdknooppunt en twee werkknooppunten. Het apparaat met twee knooppunten is maximaal beschikbaar en als een van de knooppunten mislukt, blijven zowel het apparaat als het Kubernetes-cluster actief. Ga naar Kubernetes-kernconcepten voor meer informatie over de Kubernetes-clusterarchitectuur.

Op een Azure Stack Edge-apparaat met twee knooppunten worden de Kubernetes-hoofd-VM en een Kubernetes-werkrol-VM uitgevoerd op knooppunt A van uw apparaat. Op het knooppunt B wordt één Kubernetes-werkrol-VM uitgevoerd.

Elke werkrol-VM in het Kubernetes-cluster is een vastgemaakte Hyper-V-VM. Een vastgemaakte VM is gekoppeld aan het specifieke knooppunt waarop deze wordt uitgevoerd. Als het knooppunt A op het apparaat mislukt, voert de hoofd-VM een failover uit naar knooppunt B. Maar de werkrol-VM op knooppunt A, die een vastgemaakte VM is, voert geen failover uit naar knooppunt B en vice versa. In plaats daarvan worden de pods van de werkrol-VM op knooppunt A opnieuw in evenwicht gebracht op knooppunt B.

Om ervoor te zorgen dat de opnieuw verdeelde pods voldoende capaciteit hebben om te worden uitgevoerd op het apparaatknooppunt B, dwingt het systeem af dat niet meer dan 50% van de capaciteit van elk ASE-knooppunt wordt gebruikt tijdens normale Azure Stack Edge-clusterbewerkingen van 2 knooppunten. Dit capaciteitsgebruik wordt op basis van best effort uitgevoerd en er zijn omstandigheden (bijvoorbeeld werkbelastingen waarvoor geen GPU-resources nodig zijn wanneer ze opnieuw worden geherbalanceerd naar ASE-knooppunt B) waarin herbalanceerde pods mogelijk niet voldoende resources hebben om uit te voeren.

Deze scenario's worden uitgebreid beschreven in de volgende sectie over foutmodi en gedrag.

Foutmodi en -gedrag

De Azure Stack Edge-apparaatknooppunten kunnen onder bepaalde voorwaarden mislukken. De verschillende foutmodi en de bijbehorende apparaatreacties worden in deze sectie in tabs opgenomen.

Fouten met Azure Stack Edge-knooppunten of opnieuw opstarten

Knooppunt Fouten Antwoorden
Knooppunt A heeft fouten
(Knooppunt B heeft geen fouten)
De volgende mogelijke fouten kunnen optreden:
  • Beide PSU's mislukken
  • Een of beide poort 3, poort 4 mislukt
  • Kernonderdeel mislukt, omvat moederbord, DIMM, besturingssysteemschijf
  • Volledig knooppunt mislukt
    De volgende antwoorden worden weergegeven voor elk van deze fouten:
    • Failover van kubernetes-hoofd-VM van knooppunt A naar knooppunt B
    • Het duurt enkele minuten voordat de hoofd-VM op knooppunt B wordt weergegeven
    • Pods van knooppunt A worden opnieuw in evenwicht gebracht op knooppunt B
    • GPU-workloads blijven actief als GPU beschikbaar is op knooppunt B
    Knooppunt A wordt opnieuw opgestart
    (Knooppunt B heeft geen fouten)
    Knooppunt wordt opnieuw opgestart Nadat het opnieuw opstarten van knooppunt A is voltooid en de werkrol-VM beschikbaar is, worden de pods van knooppunt B opnieuw in evenwicht gebracht.
    Knooppunt B heeft fouten
    (Knooppunt A heeft geen fouten)
    De volgende mogelijke fouten kunnen optreden:
    • Beide PSU's mislukken
    • Een of beide poort 3, poort 4 mislukt
    • Kernonderdeel mislukt, omvat moederbord, DIMM, besturingssysteemschijf
    • Volledig knooppunt mislukt
      De volgende antwoorden worden weergegeven voor elk van deze fouten:
      • Kubernetes-hoofd-VM hervergelijkt pods van knooppunt B. Dit kan enkele minuten duren.
      Knooppunt B wordt opnieuw opgestart
      (Knooppunt A heeft geen fouten)
      Knooppunt wordt opnieuw opgestart Nadat het opnieuw opstarten van knooppunt B is voltooid en de werkrol-VM beschikbaar is, worden de pods van knooppunt B opnieuw in balans gebracht.

      Azure Stack Edge-knooppuntupdates

      Updatetype Antwoorden
      Apparaatknooppuntupdate Rolling updates worden toegepast op apparaatknooppunten en de knooppunten worden opnieuw opgestart.
      Kubernetes-service-update Kubernetes-service-update omvat:
      • Een failover van de Kubernetes-hoofd-VM van apparaatknooppunt A naar apparaatknooppunt B
      • Een Kubernetes-masterupdate.
      • Updates voor Kubernetes-werkknooppunten (niet noodzakelijkerwijs in die volgorde).
      Het hele updateproces kan 30 minuten of langer duren en tijdens dit venster is het Kubernetes-cluster beschikbaar voor beheerbewerkingen (zoals het implementeren van een nieuwe workload). Hoewel pods worden verwijderd van het knooppunt van het apparaat terwijl het wordt bijgewerkt, kunnen workloads gedurende enkele seconden offline zijn tijdens dit proces.

      Volgende stappen