Scénarios de basculement Kubernetes sur un appareil Azure Stack Edge en cluster

Le cluster Kubernetes est déployé en tant que plateforme open source populaire qui permet d’orchestrer des applications conteneurisées. Cet article décrit le fonctionnement de Kubernetes sur votre appareil Azure Stack Edge à 2 nœuds, y compris les modes d’échec et les réponses d’appareil correspondantes.

À propos de Kubernetes sur Azure Stack Edge

Sur votre appareil Azure Stack Edge, vous pouvez créer un cluster Kubernetes en configurant le calcul. Lorsque le rôle de calcul est configuré, le cluster Kubernetes, y compris les nœuds principal et Worker, sont déployés et configurés pour vous. Ce cluster est ensuite utilisé pour le déploiement de la charge de travail via kubectl, IoT Edge ou Azure Arc.

L’appareil Azure Stack Edge est disponible sous la forme d’une configuration à 1 nœud ou à 2 nœuds qui constitue le cluster d’infrastructure. Le cluster Kubernetes est séparé du cluster d’infrastructure, et déployé par-dessus le cluster d’infrastructure. Le cluster d’infrastructure fournit le stockage persistant pour votre appareil Azure Stack Edge, tandis que le cluster Kubernetes est uniquement responsable de l’orchestration de l’application.

Le cluster Kubernetes comprend un nœud principal et des nœuds worker. Les nœuds Kubernetes dans un cluster sont des machines virtuelles qui exécutent vos applications et flux de travail cloud.

  • Le nœud principal Kubernetes est chargé de maintenir l’état souhaité pour votre cluster. Le nœud principal contrôle également le nœud worker.
  • Les nœuds worker exécutent les applications conteneurisées.

Cluster Kubernetes sur un appareil à deux nœuds

Le cluster Kubernetes sur l’appareil à 2 nœuds a un nœud principal et deux nœuds worker. L’appareil à 2 nœuds est hautement disponible et, en cas de défaillance de l’un des nœuds, l’appareil et le cluster Kubernetes continuent de fonctionner. Pour plus d’informations sur l’architecture de cluster Kubernetes, accédez à Concepts de base de Kubernetes.

Sur un appareil Azure Stack Edge à 2 nœuds, la machine virtuelle maître Kubernetes et une machine virtuelle worker Kubernetes s’exécutent sur le nœud A de votre appareil. Sur le nœud B, une seule machine virtuelle worker Kubernetes est en cours d’exécution.

Chaque machine virtuelle worker dans le cluster Kubernetes est une machine virtuelle Hyper-V épinglée. Une machine virtuelle épinglée est liée au nœud spécifique sur lequel elle s’exécute. Si le nœud A sur l’appareil échoue, la machine virtuelle maître bascule vers le nœud B. Mais la machine virtuelle worker sur le nœud A qui est une machine virtuelle épinglée ne bascule pas vers le nœud B et vice versa. Au lieu de cela, les pods de la machine virtuelle worker sur le nœud A sont rééquilibrés sur le nœud B.

Pour que les pods rééquilibrés disposent d’une capacité suffisante pour s’exécuter sur le nœud d’appareil B, le système impose de ne pas utiliser plus de 50 % de la capacité de chaque nœud ASE pendant les opérations courantes de cluster Azure Stack Edge à 2 nœuds. Cette utilisation de la capacité est effectuée au mieux et dans certains cas (par exemple, des charges de travail nécessitant des ressources GPU non disponibles lorsqu’elles sont rééquilibrées sur le nœud ASE B), les pods rééquilibrés peuvent ne pas disposer de ressources suffisantes pour s’exécuter.

Ces scénarios sont présentés en détail dans la section suivante sur les comportements et modes d’échec.

Comportements et modes d’échec

Les nœuds de l’appareil Azure Stack Edge peuvent échouer dans certaines conditions. Les différents modes d’échec et les réponses d’appareil correspondantes sont répertoriés dans cette section.

Échecs ou redémarrages de nœuds Azure Stack Edge

Nœud Échecs Réponses
Le nœud A a des échecs
(Le nœud B n’a pas d’échecs)
Les échecs possibles suivants peuvent se produire :
  • Les deux PSU échouent
  • Le port 3 et/ou le port 4 échouent
  • Le composant principal échoue, avec la carte mère, le DIMM, le disque du système d’exploitation
  • Le nœud entier échoue
    Les réponses suivantes s’affichent pour chacun de ces échecs :
    • La machine virtuelle maître Kubernetes bascule du nœud A au nœud B
    • La machine virtuelle maître prend quelques minutes avant d’apparaître sur le nœud B
    • Les pods du nœud A sont rééquilibrés sur le nœud B
    • Les charges de travail GPU continuent de s’exécuter si le GPU est disponible sur le nœud B
    Redémarrages du nœud A
    (Le nœud B n’a pas d’échecs)
    Le nœud redémarre Une fois que le nœud A a redémarré et que la machine virtuelle worker est disponible, la machine virtuelle maître rééquilibre les pods du nœud B.
    Le nœud B a des échecs
    (Le nœud A n’a pas d’échecs)
    Les échecs possibles suivants peuvent se produire :
    • Les deux PSU échouent
    • Le port 3 et/ou le port 4 échouent
    • Le composant principal échoue, avec la carte mère, le DIMM, le disque du système d’exploitation
    • Le nœud entier échoue
      Les réponses suivantes sont visibles pour chacune de ces défaillances :
      • La machine virtuelle maître Kubernetes rééquilibre les pods du nœud B. Cela peut prendre quelques minutes.
      Redémarrages du nœud B
      (Le nœud A n’a pas d’échecs)
      Le nœud redémarre Une fois que le nœud B a redémarré et que la machine virtuelle worker est disponible, la machine virtuelle maître rééquilibre les pods du nœud B.

      Mises à jour des nœuds Azure Stack Edge

      Type de mise à jour Réponses
      Mise à jour du nœud d’appareil Les mises à jour propagées sont appliquées aux nœuds de l’appareil et les nœuds redémarrent.
      Mise à jour du service Kubernetes La mise à jour du service Kubernetes inclut les éléments suivants :
      • Basculement de la machine virtuelle principale Kubernetes du nœud d’appareil A vers le nœud d’appareil B
      • Mise à jour de maître Kubernetes.
      • Mises à jour des nœuds worker Kubernetes (pas nécessairement dans cet ordre).
      L’ensemble du processus de mise à jour peut prendre 30 minutes ou plus et, au cours de cette fenêtre, le cluster Kubernetes est disponible pour toutes les opérations de gestion (telles que le déploiement d’une nouvelle charge de travail). Bien que les pods soient vidés du nœud de l’appareil pendant qu’il est mis à jour, les charges de travail peuvent être hors connexion pendant plusieurs secondes au cours de ce processus.

      Étapes suivantes