Azure Service Fabric geriu o cluster (SFMC) de autorreparação do nó

O cluster gerido pela Service Fabric (SFMC) adicionou uma capacidade para ajudar a manter um cluster saudável automaticamente através da reparação automática do nó, reduzindo ainda mais a gestão operacional necessária. Esta nova capacidade irá detetar quando os nós estão em baixo num cluster e tentar repará-los sem a intervenção do cliente. Neste documento, você vai aprender como funciona a reparação automática de nós de nó para o Service Fabric geridos.

Como o SFMC verifica quando os nóns estão em baixo

O cluster gerido pela Service Fabric monitoriza continuamente a saúde dos nós e regista o tempo em que um nó sobe e desce. Se for detetado um nó para baixo durante um período pré-definido, a SFMC inicia ações de reparação automáticas no nó. Este período pré-definido está atualmente configurado para ser de 24 horas no lançamento e pode ser otimizado no futuro.

Como funciona a reparação automática

A SFMC executa as seguintes ações de reparação na Máquina Virtual subjacente (VM) se o nó de tecido de serviço for detetado para baixo durante 24 horas:

  1. Reinicie o VM subjacente para o nó.
  2. Se o reboot não trouxer o nó, reimplante o nó.
  3. Se a reimplantação não for bem sucedida para trazer o nó, translocar e iniciar o VM de volta.
  4. Se a negociação não falar do nó, reimagem o nó.

A SFMC espera que os nós voltem depois de cada ação, e se um nó não aparecer, a SFMC segue para a próxima ação. As ações de reparação automática do nó normalmente demoram aproximadamente 30 minutos uma vez iniciadas, mas podem demorar mais de três horas a iterar e completar todo o conjunto de ações descritas. Não são feitas mais reparações se o nó ainda estiver em baixo depois de a SFMC ter tentado todas as ações de reparação acima. As reparações alternativas serão investigadas por engenheiros da SF se a reparação automática não levantar o nó.

Se o SFMC encontrar vários nós para baixo durante uma verificação de saúde, cada nó é reparado individualmente antes de começar outra reparação. A SFMC tenta reparar os nós da mesma ordem que os detetam.

Embora a autorreparação de nó cubra o cenário acima descrito, os clientes devem continuar a monitorizar a saúde do seu cluster e dos seus recursos. O objetivo desta funcionalidade é retirar parte do fardo da gestão e operações de cluster.

Roteiro do Futuro

Este lançamento é a primeira iteração da capacidade de autorreparação de nó, e o SFMC continuará a melhorar e expandir o âmbito no futuro.

Passos seguintes