Reparação automática de nó do cluster gerido do Azure Service Fabric (SFMC)

O cluster gerido do Service Fabric (SFMC) adicionou uma capacidade para ajudar a manter um cluster em bom estado de funcionamento automaticamente através da reparação automática de nós, reduzindo ainda mais a gestão operacional necessária. Esta nova capacidade detetará quando os nós estiverem inativos num cluster e tentará repará-los sem a intervenção do cliente. Neste documento, irá aprender como funciona a reparação automática de nós para nós de cluster geridos do Service Fabric.

Como o SFMC verifica quando os nós estão inativos

O cluster gerido do Service Fabric monitoriza continuamente o estado de funcionamento dos nós e regista a hora em que um nó sobe e desce. Se for detetado que um nó está inativo durante um período predefinido, o SFMC inicia ações de reparação automática no nó. Este período predefinido está atualmente configurado para ser de 24 horas no início e pode ser otimizado no futuro.

Como funciona a reparação automática

O SFMC executa as seguintes ações de reparação na Máquina Virtual (VM) subjacente se o nó do Service Fabric for detetado inativo durante 24 horas:

  1. Reinicie a VM subjacente do nó.
  2. Se o reinício não apresentar o nó, reimplemente o nó.
  3. Se a reimplementação não for bem-sucedida para abrir o nó, desaloque e inicie a VM novamente.
  4. Se a desalocação não apresentar o nó, volte a criar a imagem do nó.

O SFMC aguarda que os nós voltem a aparecer após cada ação e, se um nó não aparecer, o SFMC avança para a ação seguinte. Normalmente, as ações de reparação automática de nós demoram aproximadamente 30 minutos uma vez iniciadas, mas podem demorar mais de três horas a iterar e concluir o conjunto completo de ações descritas. Não serão efetuadas novas tentativas se o nó ainda estiver inativo depois de o SFMC ter tentado todas as ações de reparação acima. As remediações alternativas serão investigadas por engenheiros do SF se a reparação automática não colocar o nó em funcionamento.

Se o SFMC encontrar vários nós inativos durante uma verificação de estado de funcionamento, cada nó é reparado individualmente antes de começar outra reparação. O SFMC tenta reparar os nós pela mesma ordem em que são detetados.

Embora a reparação automática de nós abranja o cenário acima descrito, os clientes devem continuar a monitorizar o estado de funcionamento do cluster e dos respetivos recursos. O objetivo desta funcionalidade é retirar alguns dos encargos da gestão e das operações do cluster.

Mapa de Objetivos Futuros

Esta é a primeira iteração da capacidade de reparação automática de nós e o SFMC continuará a melhorar e a expandir o âmbito no futuro.

Passos seguintes