Recuperação na região usando zonas de disponibilidade e recuperação de desastre geográfico entre regiões (Grade de Eventos do Azure)

Este artigo descreve como a Grade de Eventos do Azure dá suporte à recuperação automática na região de suas definições de recursos e dados da Grade de Eventos quando ocorre uma falha em uma região que tem zonas de disponibilidade. Ele também descreve como a Grade de Eventos dá suporte à recuperação automática de definições de recursos da Grade de Eventos (sem dados) para outra região quando ocorre uma falha em uma região que tem uma região emparelhada.

Recuperação na região usando zonas de disponibilidade

As zonas de disponibilidade do Azure são locais fisicamente separados em cada região do Azure que são tolerantes a falhas locais. Elas são conectadas por uma rede de alto desempenho com uma latência de viagem de ida e volta de menos de 2 milissegundos. Cada zona de disponibilidade é composta por um ou mais datacenters equipados com energia, resfriamento e infraestrutura de rede independentes. Se uma zona é afetada, os serviços regionais, a capacidade e a alta disponibilidade têm suporte nas duas zonas restantes. Para obter informações sobre zonas de disponibilidade, confira Regiões e zonas de disponibilidade. Neste artigo, você também pode ver a lista de regiões que têm zonas de disponibilidade.

As definições de recursos da Grade de Eventos para tópicos, tópicos do sistema, domínios e assinaturas de eventos e dados de eventos são replicadas automaticamente em três zonas de disponibilidade (quando disponíveis) na região. Quando há uma falha em uma das zonas de disponibilidade, os recursos da Grade de Eventos fazem failover automático para outra zona de disponibilidade sem qualquer intervenção humana. Atualmente, não é possível controlar (habilitar ou desabilitar) esse recurso. Quando uma região existente começa a dar suporte a zonas de disponibilidade, os recursos existentes da Grade de Eventos são automaticamente reprovados para aproveitar esse recurso. Não é necessária nenhuma ação do cliente.

Diagrama que mostra as zonas de disponibilidade que protegem contra desastres localizados e desastres regionais ou de áreas geográficas extensas usando outra região.

Recuperação de desastre geográfico entre regiões

Quando uma região do Azure sofre uma interrupção prolongada, é interessante usar opções de failover para uma região alternativa para continuidade dos negócios. Muitas regiões do Azure têm pares geográficos e outras não. Para obter uma lista de regiões que têm regiões emparelhadas, consulte Emparelhamentos de replicação entre regiões do Azure para todas as geografias.

Para regiões com um par geográfico, a Grade de Eventos oferece uma capacidade de fazer failover do tráfego de publicação para a região emparelhada para tópicos personalizados, tópicos do sistema e domínios. Nos bastidores, a Grade de Eventos sincroniza automaticamente as definições de recursos de tópicos, tópicos do sistema, domínios e assinaturas de eventos para a região emparelhada. No entanto, os dados do evento não são replicados para a região emparelhada. No estado normal, os eventos são armazenados na região selecionada para esse recurso. Quando há uma interrupção na região e a Microsoft inicia o failover, novos eventos começam a fluir para a região emparelhada geograficamente e são despachados de lá sem nenhuma intervenção sua. Os eventos publicados e aceitos na região original são enviados de lá depois que a interrupção é atenuada.

O failover iniciado pela Microsoft é um recurso raramente usado pela Microsoft para realizar o failover de recursos da Grade de Eventos da região afetada para a região geográfica emparelhada correspondente. A Microsoft se reserva o direito de determinar quando essa opção será exercida. Esse mecanismo não envolve o consentimento do usuário para a realização do failover do tráfego do usuário.

Você pode habilitar ou desabilitar essa funcionalidade atualizando a configuração para seu tópico ou domínio. Selecione a opção Entre geografias (padrão) para habilitar o failover iniciado pela Microsoft e Regional para desabilitá-lo. Para obter etapas detalhadas para definir essa configuração, confira Configurar residência de dados. Se você optar por regional, nenhum tipo de dado será replicado para outra região pela Microsoft e você poderá definir seu próprio plano de recuperação de desastres. Para obter mais informações, consulte Compilar seu próprio plano de recuperação de desastre para tópicos e domínios da Grade de Eventos do Azure.

Captura de tela mostrando a página Configuração de um tópico personalizado da Grade de Eventos.

Aqui estão alguns motivos pelos quais você deseja desativar o recurso de failover iniciado pela Microsoft:

  • O failover iniciado pela Microsoft é feito do melhor modo possível.
  • Alguns pares geográficos não atendem aos requisitos de residência de dados da sua organização.

Nesses casos, a opção recomendada é criar seu próprio plano de recuperação de desastre para tópicos e domínios da Grade de Eventos do Azure. Embora essa opção exija um pouco mais de esforço, ela permite um failover mais rápido e você controla a escolha de regiões secundárias. Caso deseje implementar a recuperação de desastre do lado do cliente para tópicos da Grade de Eventos do Azure, confira Criar sua própria recuperação de desastre do lado do cliente para tópicos da Grade de Eventos do Azure.

RTO e RPO

A recuperação de desastres é medida com duas métricas:

  • Objetivo de Ponto de Recuperação (RPO): os minutos ou horas de dados que podem ser perdidos.
  • Objetivo de Tempo de Recuperação (RTO): os minutos ou horas em que o serviço pode ficar inativo.

O failover automático da Grade de Eventos tem diferentes RPOs e RTOs para seus metadados (tópicos, domínios, assinaturas de eventos) e dados (eventos). Se precisar de uma especificação diferente das seguintes, você ainda poderá implementar seu próprio failover no lado do cliente usando as APIs de integridade do tópico.

RPO (Objetivo de Ponto de Recuperação)

  • RPO de metadados: zero minutos. Para recursos aplicáveis, quando um recurso é criado/atualizado/excluído, a definição de recurso é replicada de modo síncrono para o par geográfico. Quando ocorre um failover, nenhum metadado é perdido.

  • RPO de dados: quando ocorre um failover, novos dados são processados da região emparelhada. Assim que a interrupção for mitigada para a região afetada, os eventos não processados serão despachados de lá. Se a recuperação da região exigir mais tempo do que o valor de vida útil definido em eventos, os dados poderão ser descartados. Para atenuar essa perda de dados, recomendamos que você configure um destino de mensagens mortas para uma assinatura de evento. Se a região afetada for perdida e não puder ser recuperada, haverá alguma perda de dados. Na melhor das hipóteses, o assinante está acompanhando a taxa de publicação e apenas alguns segundos de dados são perdidos. O pior cenário será quando o assinante não estiver processando eventos ativamente. Com um tempo máximo de vida útil de 24 horas, a perda de dados pode ser de até 24 horas.

RTO (Objetivo de Tempo de Recuperação)

  • RTO de metadados: a tomada de decisão de failover baseia-se em fatores como a capacidade disponível na região emparelhada e pode durar em um intervalo de 60 minutos ou mais. Uma vez iniciado o failover, dentro de 5 minutos, a Grade de Eventos começa a aceitar chamadas de criação/atualização/exclusão de tópicos e assinaturas.

  • RTO de Dados: igual às informações acima.

Importante

  • No caso de uma recuperação de desastre no lado do servidor, se a região emparelhada não tiver capacidade extra para assumir o tráfego adicional, a Grade de Eventos não poderá iniciar o failover. A recuperação é feita do melhor modo possível.
  • Não há cobrança pelo uso desse recurso.
  • Não há suporte para recuperação de desastre geográfico para namespaces e tópicos de parceiro.

Próximas etapas

Confira Crie sua própria recuperação de desastre do lado do cliente para tópicos da Grade de Eventos do Azure.