Automatyczna naprawa węzła zarządzanego klastra usługi Azure Service Fabric (SFMC)

Klaster zarządzany usługi Service Fabric (SFMC) dodał możliwość zapewnienia dobrej kondycji klastra automatycznie dzięki automatycznej naprawie węzła, co dodatkowo zmniejsza wymagane zarządzanie operacyjne. Ta nowa funkcja wykryje, kiedy węzły nie działają w klastrze i spróbują je naprawić bez interwencji klienta. W tym dokumencie dowiesz się, jak działa automatyczna naprawa węzłów dla zarządzanych węzłów klastra usługi Service Fabric.

Jak sfMC sprawdza, kiedy węzły nie działają

Klaster zarządzany usługi Service Fabric stale monitoruje kondycję węzłów i rejestruje czas, kiedy węzeł przechodzi w górę i w dół. Jeśli węzeł zostanie wykryty jako wyłączony dla wstępnie zdefiniowanego okresu, sfMC inicjuje automatyczne akcje naprawy w węźle. Ten wstępnie zdefiniowany okres jest obecnie skonfigurowany do 24 godzin podczas uruchamiania i można go zoptymalizować w przyszłości.

Jak działa automatyczna naprawa

SfMC wykonuje następujące akcje naprawy na podstawowej maszynie wirtualnej, jeśli węzeł usługi Service Fabric zostanie wykryty przez 24 godziny:

  1. Uruchom ponownie podstawową maszynę wirtualną dla węzła.
  2. Jeśli ponowne uruchomienie nie spowoduje uruchomienia węzła, ponownie wdróż węzeł.
  3. Jeśli ponowne wdrożenie nie powiedzie się, aby uruchomić węzeł, cofnij przydział i uruchom maszynę wirtualną z powrotem.
  4. Jeśli cofanie przydziału nie powoduje wywołania węzła, należy odtworzyć obraz węzła.

SfMC czeka na powrót węzłów po każdej akcji, a jeśli węzeł nie pojawi się, sfMC przejdzie do następnej akcji. Akcje automatycznej naprawy węzła zwykle trwa około 30 minut po uruchomieniu, ale może potrwać do ponad trzech godzin, aby iterować i ukończyć pełny zestaw opisanych akcji. Nie są wykonywane dalsze ponawianie prób, jeśli węzeł jest nadal wyłączony po wypróbowaniu wszystkich powyższych akcji naprawy. Alternatywne korygowania zostaną zbadane przez inżynierów SF, jeśli automatyczna naprawa nie spowoduje włączenia węzła.

Jeśli usługa SFMC wykryje, że wiele węzłów nie działa podczas sprawdzania kondycji, każdy węzeł zostanie naprawiony indywidualnie przed rozpoczęciem kolejnej naprawy. Usługa SFMC próbuje naprawić węzły w tej samej kolejności, w której zostały wykryte.

Podczas gdy automatyczna naprawa węzła obejmuje opisany powyżej scenariusz, klienci powinni nadal monitorować kondycję klastra i jej zasobów. Celem tej funkcji jest zdejmowania niektórych obciążeń związanych z zarządzaniem klastrem i operacjami.

Przyszły plan działania

To uruchomienie jest pierwszą iterację funkcji automatycznego naprawiania węzłów, a sfMC będzie nadal ulepszać i rozszerzać zakres w przyszłości.

Następne kroki