Cenários de failover do Kubernetes em um dispositivo Azure Stack Edge clusterizado

Artigo
01/06/2023

O cluster de Kubernetes é implantado como uma plataforma de código aberto popular para orquestrar aplicativos conteinerizados. Este artigo descreve como o Kubernetes funciona no dispositivo Azure Stack Edge de dois nós, incluindo os modos de falha e as respostas do dispositivo correspondentes.

Sobre o Kubernetes no Azure Stack Edge

No dispositivo Azure Stack Edge, você pode criar um cluster de Kubernetes configurando a computação. Quando a função de computação é configurada, o cluster Kubernetes incluindo os nós mestre e de trabalho são todos implantados e configurados para você. Esse cluster é usado para implantação de carga de trabalho via kubectl, IoT Edge ou Azure Arc.

O dispositivo Azure Stack Edge está disponível como uma configuração de um nó ou de dois nós que constitui o cluster de infraestrutura. O cluster Kubernetes é separado do cluster de infraestrutura e é implantado na parte superior do cluster de infraestrutura. O cluster de infraestrutura fornece o armazenamento persistente para o dispositivo Azure Stack Edge, enquanto o cluster de Kubernetes é responsável exclusivamente pela orquestração de aplicativos.

O cluster de Kubernetes é formado por um nó mestre e nós de trabalho. Os nós Kubernetes em um cluster são máquinas virtuais que executam seus aplicativos e fluxos de trabalho de nuvem.

O nó mestre Kubernetes é responsável por manter o estado desejado para o cluster. O nó mestre também controla o nó de trabalho.
Os nós de trabalho executam os aplicativos conteinerizados.

Cluster de Kubernetes no dispositivo de dois nós

O cluster de Kubernetes no dispositivo de dois nós tem um nó mestre e dois nós de trabalho. O dispositivo de dois nós é altamente disponível e, se um dos nós falhar, o dispositivo e o cluster de Kubernetes continuarão em execução. Para obter mais informações sobre a arquitetura de cluster do Kubernetes, acesse Principais conceitos do Kubernetes.

Em um dispositivo Azure Stack Edge de dois nós, a VM mestre do Kubernetes e uma VM de trabalho do Kubernetes são executadas no nó A do dispositivo. No nó B, uma só VM de trabalho do Kubernetes fica em execução.

Cada VM de trabalho no cluster de Kubernetes é uma VM do Hyper-V fixada. Uma VM fixada é vinculada ao nó específico em que está sendo executada. Se o nó A do dispositivo falhar, a VM mestre fará failover para o nó B. Mas a VM de trabalho no nó A, que é uma VM fixa, não faz failover para o nó B e vice-versa. Em vez disso, os pods da VM de trabalho no nó A são rebalanceados para o nó B.

Para que os pods rebalanceados tenham capacidade suficiente para serem executados no nó B do dispositivo, o sistema impõe não mais do que 50% da capacidade de cada nó do ASE a ser usado durante as operações habituais do cluster do Azure Stack Edge de dois nós. Esse uso de capacidade é feito em uma base de melhor esforço, e há circunstâncias (por exemplo, cargas de trabalho que exigem recursos de GPU indisponíveis quando são rebalanceadas para o nó B do ASE) nas quais os pods rebalanceados podem não ter recursos suficientes para serem executados.

Esses cenários serão abordados em detalhes na próxima seção sobre Modos de falha e comportamento.

Modos de falha e comportamento

Os nós do dispositivo Azure Stack Edge podem falhar em determinadas condições. Os vários modos de falha e as respostas do dispositivo correspondentes são mostrados nesta seção em uma tabela.

Falhas ou reinicializações de nó do Azure Stack Edge

Nó	Falhas	Respostas
O nó A tem falhas (O nó B não tem falhas)	Após possíveis falhas podem ocorrer: Falha nas duas PSUs Falha na porta 3 e/ou na porta 4 Falha no componente principal, incluindo placa-mãe, DIMM e disco de SO Falha no nó inteiro	As seguintes respostas são vistas para cada uma dessas falhas: Falha na VM mestre do Kubernetes do nó A para o nó B A VM mestre leva alguns minutos para ser exibida no nó B Os pods do nó A são rebalanceados para o nó B As cargas de trabalho de GPU continuam em execução se a GPU está disponível no nó B
Reinicializações do nó A (O nó B não tem falhas)	Reinicializações de nó	Depois que o nó A concluir a reinicialização e a VM de trabalho estiver disponível, a VM mestre rebalanceará os pods do nó B.
O nó B tem falhas (O nó A não tem falhas)	Após possíveis falhas podem ocorrer: Falha nas duas PSUs Falha na porta 3 e/ou na porta 4 Falha no componente principal, incluindo placa-mãe, DIMM e disco de SO Falha no nó inteiro	As seguintes respostas são vistas para cada uma dessas falhas: A VM mestre do Kubernetes rebalanceia os pods do nó B. Isso pode levar alguns minutos.
Reinicializações do nó B (O nó A não tem falhas)	Reinicializações de nó	Depois que o nó B concluir a reinicialização e a VM de trabalho estiver disponível, a VM mestre rebalanceará os pods do nó B.

Atualizações de nó do Azure Stack Edge

Tipo de atualização	Respostas
Atualização de nó do dispositivo	As atualizações sem interrupção são aplicadas aos nós do dispositivo, e os nós serão reinicializados.
Atualização de serviço do Kubernetes	A atualização do serviço Kubernetes inclui: Um failover da VM mestre do Kubernetes do nó de dispositivo A para o nó de dispositivo B Uma atualização do mestre do Kubernetes. Atualizações de nó de trabalho do Kubernetes (não necessariamente nesta ordem). O processo de atualização inteiro pode levar 30 minutos ou mais e, durante essa janela, o cluster de Kubernetes fica disponível para qualquer operação de gerenciamento (como implantação de uma nova carga de trabalho). Embora os pods sejam esvaziados do nó do dispositivo enquanto ele está sendo atualizado, as cargas de trabalho podem ficar offline por vários segundos durante esse processo.

Tipo de atualização

Respostas

Atualização de nó do dispositivo

As atualizações sem interrupção são aplicadas aos nós do dispositivo, e os nós serão reinicializados.

Atualização de serviço do Kubernetes

A atualização do serviço Kubernetes inclui:

Um failover da VM mestre do Kubernetes do nó de dispositivo A para o nó de dispositivo B
Uma atualização do mestre do Kubernetes.
Atualizações de nó de trabalho do Kubernetes (não necessariamente nesta ordem).

O processo de atualização inteiro pode levar 30 minutos ou mais e, durante essa janela, o cluster de Kubernetes fica disponível para qualquer operação de gerenciamento (como implantação de uma nova carga de trabalho). Embora os pods sejam esvaziados do nó do dispositivo enquanto ele está sendo atualizado, as cargas de trabalho podem ficar offline por vários segundos durante esse processo.

Próximas etapas

Saiba mais sobre o armazenamento do Kubernetes no dispositivo Azure Stack Edge.
Entenda o modelo de rede do Kubernetes no dispositivo Azure Stack Edge.
Implantar o Azure Stack Edge no portal do Azure.

Compartilhar via