Compartilhar via


Confiabilidade na Solução VMware no Azure

Azure VMware Solution fornece nuvens privadas que contêm clústeres VMware vSphere criados em infraestrutura dedicada bare-metal do Azure. Você pode migrar cargas de trabalho de seus ambientes locais, implantar novas VMs (máquinas virtuais) e consumir serviços do Azure de suas nuvens privadas. Você pode usar uma combinação de recursos nativos do VMware e do Azure para habilitar a alta disponibilidade e resiliência de suas cargas de trabalho.

Quando você usa o Azure, a confiabilidade é uma responsabilidade compartilhada. A Microsoft fornece uma variedade de recursos para dar suporte à resiliência e recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve como tornar a Solução VMware no Azure resiliente a possíveis interrupções e problemas, incluindo falhas transitórias, interrupções de zona de disponibilidade e interrupções de região. Ele também descreve como você pode usar backups para se recuperar de outros tipos de problemas e realça algumas informações importantes sobre o SLA (contrato de nível de serviço) da Solução VMware no Azure.

Recomendações de implantação de produção

As implantações da Solução VMware no Azure exigem um planejamento cuidadoso em uma variedade de áreas e geralmente exigem vários serviços do Azure. Para obter diretrizes detalhadas, consulte as cargas de trabalho da Solução VMware no Azure no Well-Architected Framework.

Visão geral da arquitetura de confiabilidade

A Solução VMware no Azure usa uma infraestrutura hiperconvergente com clusters VMware vSphere.

Ao implantar a Solução VMware no Azure, você implanta uma nuvem privada, que tem um ou mais clusters. Cada cluster contém hosts ESXi que fornecem computação, armazenamento por meio de vSAN e rede por meio do VMware NSX. Há duas gerações de Solução VMware no Azure:

  • A Gen 1 usa hardware bare-metal especializado para nodos e redes dedicadas. Para obter mais informações sobre os principais conceitos, consulte os conceitos de nuvem privada e cluster da Solução VMware no Azure.
  • O Gen 2 usa tipos de máquinas virtuais padrão do Azure e redes virtuais do Azure. Essa arquitetura simplifica a arquitetura de rede, aprimora as velocidades de transferência de dados, reduz a latência das cargas de trabalho e melhora o desempenho ao acessar outros serviços do Azure.

Tolerância a falhas

A Solução VMware no Azure fornece vários mecanismos para lidar com falhas no nível da infraestrutura e do aplicativo:

  • HA (alta disponibilidade do vSphere): a HA do vSphere monitora hosts ESXi e VMs. Se um host falhar, ele reiniciará automaticamente as VMs afetadas em hosts íntegros. A HA do vSphere é habilitada por padrão e reserva capacidade de computação e memória para uma única falha de nó.

  • Tolerância a falhas vSAN: as políticas de armazenamento vSAN protegem contra falhas transitórias no nível do armazenamento, mantendo várias cópias de dados entre hosts. Se um caminho de armazenamento ou disco tiver problemas transitórios, o vSAN gerenciará automaticamente o failover para caminhos de armazenamento saudáveis.

  • Redundância de rede: A Solução VMware no Azure fornece caminhos de rede redundantes e vários adaptadores de rede VMkernel para lidar com falhas transitórias no nível da rede.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes nos componentes. Elas ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. Falhas transitórias se corrigem após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente repetindo solicitações afetadas.

Todos os aplicativos hospedados na nuvem devem seguir as diretrizes transitórias de tratamento de falhas do Azure quando eles se comunicam com qualquer APIs, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, confira Recomendações para tratamento de falhas transitórias.

Para aplicativos em execução em VMs da Solução VMware no Azure, implemente práticas de tratamento de falhas transitórias padrão:

  • Configurar políticas de repetição apropriadas com recuo exponencial
  • Usar padrões de disjuntor para chamadas de serviço externo
  • Monitorar a integridade do aplicativo e implementar a degradação normal
  • Criar aplicativos sem estado sempre que possível para reduzir o impacto das reinicializações de VM

Resiliência a falhas de zona de disponibilidade

As zonas de disponibilidade são grupos fisicamente separados de datacenters em uma região do Azure. Quando uma zona falha, os serviços podem fazer o failover de uma das zonas restantes.

A Solução VMware Gen 1 do Azure dá suporte a zonas de disponibilidade por meio de clusters estendidos, que distribuem hosts ESXi em duas zonas de disponibilidade dentro de uma região. A Microsoft seleciona as zonas a serem usadas. O cluster opera em uma configuração ativa-ativa nas duas zonas, e o vSAN também se estende por várias zonas. Você pode designar se cada carga de trabalho é implantada em uma ou duas zonas.

Um nó de testemunha é implantado automaticamente em uma terceira zona de disponibilidade para fornecer quorum para cenários de divisão de cérebro. A Microsoft gerencia o nó testemunha automaticamente.

O diagrama mostra um cluster estendido vSAN gerenciado criado em uma terceira Zona de Disponibilidade com os dados sendo copiados para todas as três.

Um cluster padrão é aquele que não é estendido entre zonas. Em um cluster padrão, o cluster e todos os hosts ESXi são considerados nonzoais ou regionais. Os clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região, e a Microsoft seleciona a zona. Se uma zona de disponibilidade na região sofrer uma interrupção, clusters e hosts não pertencentes a uma zona podem estar na zona afetada e experimentar tempo de inatividade.

A Solução VMware Gen 2 do Azure dá suporte a implantações zonais de nuvens privadas. Quando você configura uma nuvem privada zonal, cada um de seus clusters e todos os hosts ESXi são implantados em uma única zona de disponibilidade selecionada.

Uma nuvem privada zonal não protege contra falhas na zona de disponibilidade. Você pode implantar várias nuvens privadas em zonas de disponibilidade separadas para maior resiliência, mas é responsável por implantar e configurar cada nuvem privada de forma independente.

Se você não selecionar uma zona de disponibilidade, sua nuvem privada, seus clusters e todos os hosts ESXi serão considerados nonzoais ou regionais. Os clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região, e a Microsoft seleciona a zona. Se uma zona de disponibilidade na região sofrer uma interrupção, os clusters não zonais poderão estar na zona afetada e poderão experimentar indisponibilidade.

Para exibir informações sobre o suporte à zona de disponibilidade para outras gerações, selecione a geração apropriada no início desta página.

Requirements

  • Suporte à região: Os clusters estendidos estão disponíveis em regiões do Azure selecionadas que dão suporte à configuração de cluster estendido. Verifique a tabela de mapeamento de tipos de hospedagem de zona de disponibilidade e região do Azure para obter suporte à região atual.

  • Hosts mínimos: Implante um mínimo de seis hosts em duas zonas de disponibilidade (três hosts por zona) para habilitar a configuração de cluster estendido. Ao escalar ou reduzir, você deve dimensionar em pares para que o número de hosts seja igual em cada zona.

  • SKUs de host: Há suporte para clusters estendidos com os tipos de host AV36, AV36P e AV52. O SKU AV64 não é compatível com clusters estendidos.

Suporte à região: Você pode implantar nuvens privadas zonais em regiões que dão suporte ao Azure VMware Solution Gen 2 e também dão suporte a zonas de disponibilidade.

Considerações

Cada zona de disponibilidade em uma região pode dar suporte a tipos de host específicos. Para obter uma lista detalhada dos tipos de host disponíveis em cada zona, consulte a tabela de mapeamento de tipos de host para zonas de disponibilidade da região do Azure.

Custo

Você incorre em custos para cada nó no cluster, independentemente da configuração da zona de disponibilidade do cluster. Para obter informações detalhadas sobre preços, consulte os preços da Solução VMware no Azure.

Configurar o suporte à zona de disponibilidade

  • Implantar um novo cluster: Ao criar uma nova nuvem privada da Solução VMware no Azure em uma região com suporte, você pode configurá-la como um cluster estendido durante a implantação. Essa configuração distribui hosts em duas zonas de disponibilidade automaticamente. Para obter mais informações, consulte Implantar clusters estendidos do vSAN.

  • Clusters existentes: Você não pode converter um cluster padrão em um cluster estendido nem converter um cluster estendido em um cluster padrão. Em vez disso, você precisa implantar um novo cluster e migrar suas cargas de trabalho.

  • Implantar um novo cluster: Ao criar uma nova nuvem privada da Solução VMware no Azure em uma região com suporte, você pode selecionar sua zona de disponibilidade.

  • Clusters existentes: Não é possível alterar a configuração da zona de disponibilidade de um cluster existente. Em vez disso, você precisa implantar um novo cluster e migrar suas cargas de trabalho.

Comportamento quando todas as zonas estão saudáveis

Esta seção descreve o que esperar quando o cluster está estendido e todas as zonas de disponibilidade estão operacionais.

  • Operação entre regiões: As VMs podem ser executadas em hosts em qualquer zona de disponibilidade. O posicionamento da VM pode ser controlado usando a afinidade de DRS do vSphere e regras anti-afinidade para otimizar os requisitos de desempenho ou disponibilidade.

  • Replicação de dados entre regiões: o vSAN replica dados de forma síncrona entre zonas de disponibilidade. Cada operação de gravação é confirmada por ambas as zonas antes da conclusão, garantindo a integridade consistente dos dados.

Esta seção descreve o que esperar quando o cluster é implantado em uma nuvem privada zonal e todas as zonas de disponibilidade estão operacionais.

  • Operação entre regiões: As VMs são executadas em hosts dentro da zona de disponibilidade do cluster.

  • Replicação de dados entre regiões: Nenhum dado é replicado para outra zona.

Comportamento durante uma falha de zona

Esta seção descreve o que esperar quando o cluster é expandido e ocorre uma interrupção em uma zona de disponibilidade.

  • Detecção e resposta: A Solução VMware no Azure gerencia a resposta em nível de infraestrutura a falhas de zona. A HA do vSphere detecta automaticamente falhas de zona e inicia procedimentos de reinicialização da VM, se necessário.
  • Solicitações ativas: Todas as VMs em execução na zona de disponibilidade com falha são reiniciadas em hosts na zona de disponibilidade sobrevivente. As solicitações ativas e as conexões com as VMs afetadas são encerradas e os clientes são responsáveis por repeti-las.

  • Tempo de inatividade esperado: O tempo para reiniciar VMs com falha na zona íntegra normalmente é de alguns minutos, dependendo da configuração da VM e dos procedimentos de inicialização. O cluster estendido permanece operacional com capacidade reduzida.

    Se a zona de disponibilidade com falha contiver o nó de testemunha, a testemunha ficará inacessível. Enquanto as réplicas de dados suficientes permanecerem disponíveis, os hosts de dados e as cargas de trabalho em execução continuarão operando sem perda imediata de dados. No entanto, o vSAN perde a consciência de quorum nesse estado, o que o impede de tomar decisões de posicionamento e recuperação com segurança e faz com que determinadas operações sejam bloqueadas, como a ativação da VM após falhas, reequilíbrio e reparos.

  • Perda de dados esperada: Como o vSAN usa a replicação síncrona entre zonas, não há nenhuma perda de dados esperada durante uma falha de zona.

  • Redistribuição: o DRS do vSphere redistribui automaticamente cargas de trabalho de VM para a zona de disponibilidade sobrevivente. O roteamento de tráfego de rede por meio do VMware NSX se adapta automaticamente ao novo posicionamento da VM.

Esta seção descreve o que esperar quando o cluster é implantado em uma nuvem privada zonal e ocorre uma interrupção de zona de disponibilidade.

  • Detecção e resposta: Você precisa detectar a perda de uma zona de disponibilidade. Se necessário, você pode iniciar um failover para um cluster secundário previamente criado em outra zona de disponibilidade.
  • Solicitações ativas: As solicitações ativas e as conexões com as VMs afetadas são encerradas e os clientes são responsáveis por repeti-las.

  • Tempo de inatividade esperado: Quando uma zona não está disponível, seu cluster e suas cargas de trabalho ficam indisponíveis até que a zona de disponibilidade se recupere.

  • Perda de dados esperada: Os dados na zona afetada não estão disponíveis até que a zona se recupere.

  • Redistribuição: Você é responsável por redirecionar o tráfego para outros clusters em zonas saudáveis, se necessário.

Recuperação de zona

Quando a zona de disponibilidade é recuperada, o DRS do vSphere pode, opcionalmente, redistribuir VMs de volta para a zona recuperada com base em suas regras de configuração e afinidade de DRS. Você também pode controlar manualmente o posicionamento da VM usando operações de vMotion.

Quando a zona de disponibilidade é recuperada, clusters e hosts na zona ficam disponíveis novamente. Você é responsável por todos os procedimentos de recuperação de zona e sincronização de dados que suas cargas de trabalho exigem.

Testar falhas em zonas

Você pode simular falhas de zona:

  • Usar o vSphere para colocar hosts em modo de manutenção e assim simular falhas no nível da zona.

  • Validar que os sistemas de backup e monitoramento continuam funcionando durante falhas simuladas.

  • Testando a resiliência do aplicativo para reinicializações de VM e alterações de caminho de rede, especialmente quando você tem clusters estendidos ou implanta aplicativos em clusters separados em diferentes zonas.

Como a Solução VMware no Azure gerencia a resposta de infraestrutura a falhas de zona, você precisa principalmente testar a resposta do aplicativo às reinicializações da VM.

Você é responsável por qualquer resposta de infraestrutura a falhas de zona, como failover para outro cluster em uma zona ou região diferente. Verifique se você testa seus processos de resposta minuciosamente.

Resiliência a falhas em toda a região

Cada cluster da Solução VMware no Azure é implantado em uma única região do Azure. Se a região ficar indisponível, sua nuvem privada e todos os recursos dentro dela ficarão indisponíveis.

No entanto, você também pode criar soluções personalizadas de várias regiões que combinam diferentes abordagens ou se integram à sua infraestrutura existente para atender aos seus requisitos de negócios específicos e aos objetivos de recuperação.

Soluções personalizadas de várias regiões para resiliência

Para obter resiliência de várias regiões com a Solução VMware no Azure, você precisa implantar nuvens privadas separadas em várias regiões e implementar failover e outras soluções de recuperação de desastre.

Há uma variedade de opções que dão suporte a requisitos diferentes. Para obter mais informações, consulte soluções de backup e recuperação de desastre de terceiros para o VMware do Azure: limitações, compatibilidade e problemas conhecidos.

Backup e restauração

A Solução VMware no Azure faz backup automático de componentes de gerenciamento (vCenter Server, NSX Manager e HCX Manager, se habilitado). Para restaurar desses backups de gerenciamento, crie uma solicitação de suporte do Azure.

Para suas cargas de trabalho de VM, a Solução VMware no Azure dá suporte a várias abordagens de backup. Para obter informações detalhadas, consulte soluções de backup para VMs da Solução VMware no Azure.

Resiliência à manutenção do serviço

O Azure executa a manutenção automática da plataforma para aplicar atualizações de segurança, implantar novos recursos e melhorar a confiabilidade do serviço.

Para saber mais sobre o efeito que a manutenção pode ter sobre os componentes da Solução VMware no Azure e entender os componentes que você é responsável por manter e aqueles que a Microsoft mantém, consulte as práticas recomendadas de manutenção de nuvem privada da Solução VMware no Azure.

Você pode configurar as janelas de manutenção do seu cluster para diminuir a chance de que essas atividades impactem suas cargas de trabalho de produção. Para obter mais informações, consulte Planejar a manutenção de autoatendimento para a Solução VMware no Azure (versão prévia pública).

Contrato de nível de serviço

O acordo de nível de serviço (SLA) dos serviços do Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para alcançar essa expectativa de disponibilidade. Para obter mais informações, consulte SLAs para serviços online.

A Solução VMware no Azure fornece SLAs de disponibilidade diferentes para infraestrutura de carga de trabalho e operações de gerenciamento.

Os clusters configurados como clusters estendidos têm um SLA de disponibilidade de infraestrutura de carga de trabalho mais alta.

No entanto, para se qualificar para os SLAs de disponibilidade, você deve configurar seu cluster de maneiras específicas. Consulte o texto do SLA para obter informações detalhadas.