Réparation automatique des nœuds de cluster managé Azure Service Fabric

Les clusters managés Service Fabric permettent désormais de maintenir automatiquement l’intégrité d’un cluster par le biais de la réparation automatique des nœuds, qui permet de réduire encore davantage la gestion opérationnelle. Cette nouvelle fonctionnalité détecte lorsque des nœuds de cluster sont en panne et tente de les réparer sans intervention du client. Dans ce document, vous allez découvrir comment fonctionne cette réparation automatique pour les nœuds de cluster managé Service Fabric.

Comment les clusters managés Service Fabric vérifient l’état des nœuds

Les clusters managés Service Fabric monitorent en permanence l’intégrité des nœuds et enregistrent l’heure à laquelle ils deviennent indisponibles puis à nouveau disponibles. Si un nœud indisponible est détecté pendant une période prédéfinie, les clusters managés Service Fabric lancent des actions de réparation automatique pour ce nœud. Cette période prédéfinie est actuellement configurée pour être de 24 heures au lancement et pourra être optimisée plus tard.

Fonctionnement de la réparation automatique

Les clusters managés Service Fabric effectuent les actions de réparation suivantes sur la machine virtuelle sous-jacente si le nœud Service Fabric est indisponible pendant 24 heures :

  1. Redémarrez la machine virtuelle sous-jacente du nœud.
  2. Si le redémarrage ne rend pas le nœud à nouveau disponible, redéployez le nœud.
  3. Si le redéploiement ne parvient pas à rendre le nœud à nouveau disponible, libérez puis démarrez la machine virtuelle.
  4. Si la libération ne rend pas le nœud à nouveau, réinitialisez le nœud.

Les clusters managés Service Fabric attendent que les nœuds soient à nouveau disponibles après chaque action, et lorsqu’un nœud reste indisponible, les clusters passent à l’action suivante. Les actions de réparation automatique de nœud prennent en général une trentaine de minutes, mais peuvent prendre jusqu’à trois heures pour itérer et terminer l’ensemble complet des actions décrites. Aucune nouvelle tentative n’est effectuée si le nœud est toujours indisponible après une première tentative de réparation. D’autres corrections seront investiguées par les ingénieurs Service Fabric si la réparation automatique ne rend pas le nœud à nouveau disponible.

Si AKS détecte plusieurs nœuds non sains pendant un contrôle d’intégrité, chaque nœud est réparé individuellement avant qu’une autre réparation ne commence. Les clusters managés Service Fabric tentent de réparer les nœuds dans l’ordre de détection de leur indisponibilité.

Même si la réparation automatique des nœuds sert au scénario décrit ci-dessus, les clients doivent continuer à monitorer l’intégrité de leur cluster et de ses ressources. L’objectif de cette fonctionnalité est d’alléger la charge de gestion et des opérations de cluster.

Feuille de route à venir

Ce lancement constitue la première version de la fonctionnalité de réparation automatique des nœuds. Les clusters managés Service Fabric continueront de s’améliorer et d’étendre leurs fonctionnalités.

Étapes suivantes