Reparação automática de nó do cluster gerido do Azure Service Fabric (SFMC)
O cluster gerido do Service Fabric (SFMC) adicionou uma capacidade para ajudar a manter um cluster em bom estado de funcionamento automaticamente através da reparação automática de nós, reduzindo ainda mais a gestão operacional necessária. Esta nova capacidade detetará quando os nós estiverem inativos num cluster e tentará repará-los sem a intervenção do cliente. Neste documento, irá aprender como funciona a reparação automática de nós para nós de cluster geridos do Service Fabric.
Como o SFMC verifica quando os nós estão inativos
O cluster gerido do Service Fabric monitoriza continuamente o estado de funcionamento dos nós e regista a hora em que um nó sobe e desce. Se for detetado que um nó está inativo durante um período predefinido, o SFMC inicia ações de reparação automática no nó. Este período predefinido está atualmente configurado para ser de 24 horas no início e pode ser otimizado no futuro.
Como funciona a reparação automática
O SFMC executa as seguintes ações de reparação na Máquina Virtual (VM) subjacente se o nó do Service Fabric for detetado inativo durante 24 horas:
- Reinicie a VM subjacente do nó.
- Se o reinício não apresentar o nó, reimplemente o nó.
- Se a reimplementação não for bem-sucedida para abrir o nó, desaloque e inicie a VM novamente.
- Se a desalocação não apresentar o nó, volte a criar a imagem do nó.
O SFMC aguarda que os nós voltem a aparecer após cada ação e, se um nó não aparecer, o SFMC avança para a ação seguinte. Normalmente, as ações de reparação automática de nós demoram aproximadamente 30 minutos uma vez iniciadas, mas podem demorar mais de três horas a iterar e concluir o conjunto completo de ações descritas. Não serão efetuadas novas tentativas se o nó ainda estiver inativo depois de o SFMC ter tentado todas as ações de reparação acima. As remediações alternativas serão investigadas por engenheiros do SF se a reparação automática não colocar o nó em funcionamento.
Se o SFMC encontrar vários nós inativos durante uma verificação de estado de funcionamento, cada nó é reparado individualmente antes de começar outra reparação. O SFMC tenta reparar os nós pela mesma ordem em que são detetados.
Embora a reparação automática de nós abranja o cenário acima descrito, os clientes devem continuar a monitorizar o estado de funcionamento do cluster e dos respetivos recursos. O objetivo desta funcionalidade é retirar alguns dos encargos da gestão e das operações do cluster.
Mapa de Objetivos Futuros
Esta é a primeira iteração da capacidade de reparação automática de nós e o SFMC continuará a melhorar e a expandir o âmbito no futuro.