Share via


Confiabilidade no Treinamento da Comunidade

O Treinamento da Comunidade é uma solução baseada em nuvem do Azure que pode fornecer programas de treinamento de grande escala e de grande expansão com alta qualidade e eficiência. Com o Treinamento da Comunidade, organizações de todos os tamanhos e tipos podem executar programas de treinamento em larga escala para suas comunidades internas e externas. As comunidades podem incluir trabalhadores de linha de frente, forças de trabalho estendidas, um ecossistema de parceiros, uma rede de voluntários e beneficiários do programa.

Este artigo descreve o suporte à confiabilidade no Treinamento da Comunidade e aborda a resiliência regional com zonas de disponibilidade e recuperação de desastres e continuidade dos negócios. Para obter uma visão geral mais detalhada de um princípio de confiabilidade no Azure, consulte confiabilidade do Azure.

Suporte à zona de disponibilidade

As zonas de disponibilidade do Azure são pelo menos três grupos de datacenters separados fisicamente em cada região do Azure. Os datacenters dentro de cada zona são equipados com energia, resfriamento e infraestrutura de rede independentes. Em caso de falha de uma zona local, as zonas de disponibilidade foram projetadas de modo que, se uma zona é afetada, os serviços regionais, a capacidade e a alta disponibilidade têm suporte nas duas zonas restantes.

As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é obtida devido à redundância e ao isolamento lógico dos serviços do Azure. Para obter informações detalhadas sobre as zonas de disponibilidade no Azure, confira Regiões e zonas de disponibilidade.

Os serviços habilitados para zonas de disponibilidade do Azure foram projetados para fornecer o nível ideal de resiliência e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ter redundância de zona, com replicação automática entre zonas, ou podem ser zonais, com instâncias fixadas em uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre a arquitetura zonal versus com redundância de zona, confira Recomendações para usar zonas e regiões de disponibilidade.

O Treinamento da Comunidade usa zonas de disponibilidade do Azure para fornecer alta disponibilidade e tolerância a falhas em uma região do Azure. O treinamento da comunidade oferece suporte à zona de disponibilidade do plano de dados e controle:

  • O plano de controle é redundante em zona nas regiões primárias de disponibilidade.

  • O plano de dados pode ser zonal ou com redundância de zona, dependendo do que você escolher para suas necessidades. No entanto, é altamente recomendável que você escolha uma implantação com redundância de zona para evitar perda de dados e manter a disponibilidade do serviço durante uma interrupção de zona.

Pré-requisitos

  • Há suporte para zonas de disponibilidade para as seguintes SKUs de Treinamento da Comunidade:

    • Standard (menor escala de usuários)
    • Premium (alta escala de usuários)
  • O Treinamento da Comunidade só tem suporte em regiões emparelhadas. Cada região secundária é implantada com uma configuração zonal. A tabela a seguir mostra todas as regiões que dão suporte a zonas de disponibilidade para Treinamento da Comunidade, juntamente com sua região emparelhada.

Região Primária Região emparelhada
UKSouth UKWest
AustraliaEast AustraliaSoutheast
EastUS WestUS
EastUS2 CentralUS
NorthEurope WestEurope
WestUS3 EastUS
SwedenCentral SwedenSouth

Suporte a failover zonal

O Treinamento da Comunidade usa muitos serviços do Azure de dependência, como o Serviço de Aplicativo e o SQL do Azure. Quando você escolhe uma implantação com redundância de zona, o Treinamento da Comunidade também cria ofertas com redundância zonal daqueles recursos de serviço subjacentes do Azure. Se uma zona falhar, todos os recursos, incluindo recursos de dependência, falharão em uma das zonas íntegras.

Criar um recurso com a zona de disponibilidade habilitada

O Treinamento da Comunidade fornece configuração para zonas de disponibilidade somente no momento da criação da instância. Se você quiser alterar a configuração da zona de disponibilidade após a criação da instância, precisará criar uma nova instância. Para saber como criar sua instância de Treinamento da Comunidade, consulte Criar Treinamento da Comunidade.

Experiência de zona inoperante

  • Zonal. Durante uma interrupção em toda a zona, o Treinamento da Comunidade pode ter uma interrupção completa ou parcial do serviço. A extensão da sua disponibilidade depende de vários fatores, como se todo o datacenter está inativo ou se um serviço de dependência específico não está mais disponível nessa zona.

  • Redundância de zona. Durante uma interrupção em toda a zona, você não deve ter nenhum impacto sobre os recursos provisionados. No entanto, você deve estar preparado para uma breve interrupção na comunicação com esses recursos. Em uma situação de zona inoperante, os clientes normalmente recebem 409 códigos de erro, bem como tentativas lógicas de repetição para restabelecer conexões em intervalos apropriados. Novas solicitações são direcionadas a nós íntegros sem impacto sobre o usuário. Durante interrupções em toda a zona, os usuários podem criar novos recursos e dimensionar com êxito os existentes.

Recuperação de desastre e continuidade dos negócios

A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.

Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastre que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.

A equipe de Treinamento da Comunidade da Microsoft gerencia todo o procedimento de recuperação de desastres para o Treinamento da Comunidade. A recuperação de desastre não é ativa ou ativa passiva, mas se baseia na recuperação do backup disponível mais recente dos serviços do Azure. A equipe de Treinamento da Comunidade cria manualmente todos os recursos na região emparelhada a partir do backup de dados.

Observação

A recuperação de desastre do Treinamento da Comunidade só tem suporte em regiões emparelhadas.

Recuperação de desastre na geografia de várias regiões

  • Em um desastre regional, o painel de controle é manualmente reprovado na região emparelhada. Você deve esperar alguma degradação de serviço no tempo antes da conclusão do failover. Após o failover, somente as operações somente leitura têm suporte até que a região de desastre esteja online novamente. O serviço faz o failback manual para a região original quando ele está online novamente e todas as operações são retomadas. O RPO (Objetivo de Ponto de Recuperação) deve ser de 10 minutos; RTO (Objetivo de Tempo de Recuperação), 24 horas.

  • Para o painel de dados, o Treinamento da Comunidade oferece recuperação de desastre gerenciada pela Microsoft. Para usar a recuperação de desastre gerenciada, você precisa habilitar a recuperação de desastre durante a criação da instância de Treinamento da Comunidade no Azure. Depois de habilitar a recuperação de desastre, a Microsoft mantém o backup do armazenamento e do banco de dados na região emparelhada. O RPO (Objetivo de Ponto de Recuperação) deve ser de 12 horas; RTO (Objetivo de Tempo de Recuperação), 48 horas.

Observação

O RTO depende do tamanho do banco de dados e do armazenamento, latência entre a região emparelhada. SKU (capacidade de VM de armazenamento ou banco de dados). O RPO depende dos recursos subjacentes do Azure, como SQL do Azure e armazenamento do Azure. Para obter mais informações sobre RTO e RPO, consulte Visão geral da Recuperação de Desastre.

Detecção, notificação e gerenciamento de interrupção

Quando uma verificação de integridade do Treinamento da Comunidade detecta uma interrupção de qualquer serviço e, em qualquer região, a Microsoft solicita seu consentimento para o failover para a região emparelhada. A Microsoft informa quais recursos estão disponíveis durante o procedimento de recuperação de desastre. Depois que a Microsoft receber seu consentimento, a equipe de Treinamento da Comunidade poderá iniciar o procedimento de recuperação de desastre.

Importante

Os aprendizes não poderão consumir recursos de áudio/vídeo até que a região primária esteja operacional. É recomendável evitar operações de carregamento de mídia até que o site primário esteja operacional.

Capacidade e resiliência proativa de recuperação de desastre

A Microsoft e seus clientes operam ao abrigo do modelo de responsabilidade compartilhada. Depois que qualquer região estiver inoperante, não apenas a instância de Treinamento da Comunidade será migrada para a região emparelhada, mas também todas as cargas de trabalho de produtos e clientes também serão migradas para a região emparelhada. Esse procedimento pode causar uma escassez de recursos na região emparelhada ou no datacenter. Como resultado, a disponibilidade de recuperação de desastre depende da capacidade disponível dos recursos subjacentes do Azure.

Próximas etapas