Partilhar via


O que é a documentação de confiabilidade do Azure?

O Azure fornece um conjunto abrangente de recursos de confiabilidade para ajudá-lo a atender aos requisitos de carga de trabalho. A documentação de confiabilidade do Azure fornece guias específicos de serviço sobre como cada serviço do Azure dá suporte a esses recursos de confiabilidade da plataforma, como tratamento de falhas transitórias, zonas de disponibilidade, suporte a várias regiões e suporte a backup. Para ver a lista atual de guias de serviço de confiabilidade, consulte Guias de confiabilidade por serviço.

Além dos guias de serviço de confiabilidade, a documentação de confiabilidade do Azure também inclui informações gerais, como:

  • Regiões do Azure: informações sobre regiões do Azure, regiões emparelhadas e não emparelhadas e configurações de região diferentes.
  • Zonas de disponibilidade do Azure: informações sobre zonas de disponibilidade, incluindo como elas oferecem suporte a alta disponibilidade e recuperação de desastres. Esta seção também inclui listas de serviços e regiões do Azure que oferecem suporte a zonas de disponibilidade.
  • Conceitos de fiabilidade: Conceitos fundamentais de fiabilidade, tais como:
    • Continuidade de negócios, alta disponibilidade e recuperação de desastres.
    • Redundância, replicação (redundância de dados) e backup
    • Mudança automática para backup e retorno ao original.
    • Responsabilidade partilhada entre si e a Microsoft.

O que é fiabilidade?

Confiabilidade refere-se à capacidade de uma carga de trabalho de executar consistentemente no nível esperado e de acordo com os requisitos de continuidade de negócios. A confiabilidade é um conceito-chave na computação em nuvem. No Azure, a confiabilidade é alcançada por meio de uma combinação de fatores, incluindo o design da própria plataforma, seus serviços, a arquitetura de seus aplicativos e a implementação de práticas recomendadas.

Uma abordagem fundamental para alcançar a confiabilidade em uma carga de trabalho é a resiliência, que é a capacidade de uma carga de trabalho de suportar e se recuperar de falhas e interrupções. O Azure oferece vários recursos de resiliência, como zonas de disponibilidade, suporte a várias regiões, replicação de dados e recursos de backup e restauração. Esses recursos devem ser considerados ao projetar uma carga de trabalho para atender aos seus requisitos de continuidade de negócios.

Sugestão

A confiabilidade também incorpora outros elementos do design da solução, incluindo como você implanta alterações com segurança, como gerencia o desempenho para evitar tempo de inatividade devido à alta carga e como testa e valida cada parte da solução. Para saber mais, consulte o Azure Well-Architected Framework.

Regiões do Azure

O Azure fornece mais de 60 regiões globalmente, localizadas em muitas geografias diferentes. Cada região é um conjunto de instalações físicas que incluem datacenters e infraestrutura de rede. Todas as regiões podem ser divididas em áreas geográficas chamadas geografias. Cada geografia é um limite de residência de dados e pode conter uma ou mais regiões.

As regiões do Azure fornecem determinados tipos de opções de resiliência. Muitas regiões fornecem zonas de disponibilidade, e algumas têm uma região emparelhada, enquanto outras regiões não são pareadas. Ao escolher uma região para seus serviços, é importante prestar atenção às opções de resiliência disponíveis nessa região.

Zonas de disponibilidade do Azure

Muitas regiões do Azure fornecem zonas de disponibilidade, que são grupos separados de datacenters dentro de uma região. As zonas de disponibilidade são uma maneira importante de obter confiabilidade na plataforma Azure porque fornecem algum nível de isolamento físico dentro de uma região.

As zonas de disponibilidade são próximas o suficiente para ter conexões de baixa latência com outras zonas de disponibilidade, mas estão distantes o suficiente para reduzir a probabilidade de que mais de uma seja afetada por interrupções locais ou pelo clima. As zonas de disponibilidade têm infraestrutura independente de energia, refrigeração e rede. Eles são projetados para que, se uma zona sofrer uma interrupção, os serviços regionais, a capacidade e a alta disponibilidade sejam suportados pelas zonas restantes.

Conceitos de fiabilidade

A seção de conceitos de confiabilidade fornece uma visão geral de alguns dos principais conceitos e princípios que sustentam a confiabilidade no Azure.

Continuidade de negócios, alta disponibilidade e recuperação de desastres

O planejamento de continuidade de negócios pode ser entendido como o processo contínuo de gerenciamento de riscos por meio de alta disponibilidade e design de recuperação de desastres.

Ao considerar a continuidade de negócios, é importante entender os seguintes termos:

  • A continuidade de negócios é o estado no qual uma empresa pode continuar as operações durante falhas, interrupções ou desastres. A continuidade dos negócios requer planejamento, preparação e implementação proativos de sistemas e processos resilientes.

  • Alta disponibilidade consiste em projetar uma solução para atender às necessidades de disponibilidade dos negócios e ser resiliente a problemas do dia a dia que podem afetar os requisitos de tempo de atividade.

  • A recuperação de desastres consiste em planejar como lidar com riscos incomuns e interrupções catastróficas que podem resultar.

Para obter informações sobre continuidade de negócios e planejamento de continuidade de negócios por meio de design de alta disponibilidade e recuperação de desastres, consulte O que são continuidade de negócios, alta disponibilidade e recuperação de desastres?.

Redundância, replicação e backup

Muitas vezes pensamos na nuvem como um sistema globalmente distribuído e ubíquo. No entanto, na realidade, a nuvem é composta por hardware executado em datacenters. A resiliência requer que você leve em conta alguns dos riscos associados aos locais físicos nos quais seus componentes hospedados na nuvem são executados.

Redundância é a capacidade de manter várias cópias idênticas de um componente de serviço e usar essas cópias de forma a evitar que qualquer componente se torne um único ponto de falha.

Replicação ou redundância de dados é a capacidade de manter várias cópias de dados, chamadas réplicas.

Backup é a capacidade de manter uma cópia datada que pode ser usada para restaurar dados perdidos.

Para obter uma introdução à redundância, replicação e backup, consulte O que é redundância, replicação e backup?.

Alternância e reversão

Um motivo comum para manter cópias redundantes de aplicativos e réplicas de dados é ser capaz de executar um failover. Com o failover, pode-se redirecionar o tráfego e as solicitações de instâncias com problemas para instâncias saudáveis. Em seguida, quando as instâncias originais se tornarem íntegras novamente, você poderá executar um failback para retornar à configuração original.

Para obter mais informações sobre relevo automático e retorno pós-falha, consulte O que é relevo automático e retorno pós-falha?.

Responsabilidade partilhada

A resiliência define a capacidade de uma carga de trabalho de se autocorrigir automaticamente e se recuperar de várias formas de falhas ou interrupções. Os serviços do Azure são criados para serem resilientes a muitas falhas comuns, e cada produto fornece um contrato de nível de serviço (SLA) que descreve o tempo de atividade que você pode esperar. No entanto, a resiliência geral de sua carga de trabalho depende de como você projetou sua solução para atender às suas necessidades de negócios. Alguns planos de continuidade de negócios podem considerar certos riscos de falha como sem importância, enquanto outros podem considerá-los críticos.

Na plataforma de nuvem pública do Azure, a resiliência é uma responsabilidade compartilhada entre a Microsoft e você. Como há diferentes níveis de resiliência em cada carga de trabalho que você projeta e implanta, é importante que você entenda quem é o principal responsável por cada um desses níveis de uma perspetiva de resiliência. Para entender melhor como a responsabilidade compartilhada funciona, especialmente ao enfrentar uma interrupção ou desastre, consulte Responsabilidade compartilhada pela resiliência.