Visão geral do pilar de fiabilidade

A fiabilidade garante que a sua candidatura pode cumprir os compromissos que assumiu com os seus clientes. A arquiteta da resiliência no seu quadro de aplicações garante que as suas cargas de trabalho estão disponíveis e podem recuperar de falhas em qualquer escala.

O edifício para a fiabilidade inclui:

  • Garantindo uma arquitetura altamente disponível
  • Recuperação de falhas como perda de dados, inatividade ou incidentes de ransomware

Para avaliar a fiabilidade da sua carga de trabalho utilizando os princípios encontrados no Microsoft Azure Well-Architected Framework, consulte o Microsoft Azure Well-Architected Review.

Para mais informações, explore o seguinte vídeo sobre mergulhar mais profundamente na fiabilidade da carga de trabalho do Azure:


No desenvolvimento de aplicações tradicional, a ênfase tem recaído sobre o aumento do tempo médio entre falhas (MTBF). Foram realizados esforços para tentar impedir que o sistema falhe. Na computação em nuvem, é necessária uma mentalidade diferente, devido a vários fatores:

  • Os sistemas distribuídos são complexos e uma falha num momento pode potencialmente propagar-se por todo o sistema.
  • Os custos para ambientes em nuvem são mantidos baixos através do hardware de mercadoria, pelo que devem ser esperadas falhas ocasionais de hardware.
  • As aplicações dependem muitas vezes de serviços externos, os quais podem ficar temporariamente indisponíveis ou limitar os utilizadores de volume elevado.
  • Os utilizadores atuais esperam que uma aplicação esteja disponível 24 horas por dia, 7 dias por semana, e que nunca fique offline.

Todos estes fatores significam que as aplicações na cloud têm de ser concebidas já a contar com falhas ocasionais e a sua recuperação. O Azure tem muitas funcionalidades de resiliência já incorporadas na plataforma. Por exemplo:

  • Azure Storage, SQL do Azure Database e Azure Cosmos DB fornecem replicação de dados incorporada em zonas e regiões de disponibilidade.
  • Os discos geridos do Azure são posicionados automaticamente em unidades de escala de armazenamento diferentes para limitar os efeitos das falhas de hardware.
  • As máquinas virtuais (VMs) num conjunto de disponibilidade estão espalhadas por vários domínios de avaria. Um domínio de falha é um grupo de VMs que partilham uma fonte de energia comum e um interruptor de rede. A propagação de VMs em domínios de falha limita o impacto das falhas de hardware físico, da indisponibilidade de rede ou das falhas de energia.
  • Zonas de Disponibilidade são locais fisicamente separados em cada região de Azure. Cada zona é composta por um ou mais datacenters equipados com energia independente, refrigeração e infraestrutura de rede. Com zonas de disponibilidade, pode projetar e operar aplicações, e bases de dados que fazem automaticamente a transição entre zonas sem interrupção, o que garante resiliência se uma zona for afetada. Para mais informações, regiões de referência e Zonas de Disponibilidade em Azure.

Dito isto, vai ter de criar na mesma resiliência na sua aplicação. As estratégias de resiliência podem ser aplicadas em todos os níveis da arquitetura. Algumas mitigações são de natureza mais tática — por exemplo, redatórias uma chamada remota após uma falha de rede transitória. Outras mitigações são mais estratégicas, tal como ativações pós-falha da aplicação completa para uma região secundária. Mitigações táticas podem fazer uma grande diferença. Embora seja raro que uma região inteira experimente uma perturbação, problemas transitórios como o congestionamento da rede são mais comuns , por isso, direcione estas questões primeiro. É igualmente importante possuir a monitorização e o diagnóstico adequados, tanto para detetar falhas quando estas acontecem como para encontrar a raiz dos problemas.

Ao conceber uma aplicação para que seja resiliente, deve compreender os requisitos de disponibilidade. Qual é o período de indisponibilidade aceitável? A quantidade de tempo de inatividade é em parte uma função de custo. Qual será o custo do período de indisponibilidade para o seu negócio? Quanto deve investir para que a aplicação seja de elevada disponibilidade?

Tópicos e boas práticas

O pilar de fiabilidade abrange os seguintes tópicos e boas práticas para ajudá-lo a construir uma carga de trabalho resiliente:

Tópico de fiabilidade Description
Princípios de fiabilidade Estes princípios críticos são utilizados como lentes para avaliar a fiabilidade de uma aplicação implantada no Azure.
Design para fiabilidade Considere como os sistemas usam Zonas de Disponibilidade, executam a escalabilidade, respondem a falhas e outras estratégias que otimizam a fiabilidade no design de aplicações.
Lista de verificação de resiliência para serviços específicos do Azure Todas as tecnologias têm os seus próprios modos de falha particulares, que deve considerar ao conceber e implementar a sua aplicação. Utilize esta lista de verificação para rever as considerações de resiliência para serviços específicos da Azure.
Requisitos de destino e não funcionais Os requisitos de destino e não funcionais, tais como metas de disponibilidade e metas de recuperação, permitem medir o tempo de tempo e tempo de inatividade das suas cargas de trabalho. Ter metas claramente definidas é crucial para ter um objetivo de trabalhar e medir contra.
Resiliência e dependências A recuperação de falhas de construção no sistema deve fazer parte das fases de arquitetura e de conceção desde o início para evitar o risco de falha. São necessárias dependências para que o pedido funcione na íntegra.
Zonas de Disponibilidade Zonas de Disponibilidade pode ser usado para espalhar uma solução em várias zonas dentro de uma região, permitindo que uma aplicação continue a funcionar quando uma zona falha.
Disponibilidade dos serviços A disponibilidade de serviços em todas as regiões de Azure depende do tipo de região. A política geral da Azure em matéria de implantação de serviços em qualquer região é essencialmente impulsionada pelo tipo de região, categorias de serviços e procura de clientes.
Terminologia da zona de disponibilidade Para melhor entender as regiões e as zonas de disponibilidade em Azure, ajuda a compreender termos ou conceitos chave.
Melhores práticas Durante a fase de arquitetura, concentre-se na implementação de práticas que cumprem os requisitos comerciais, identifique os pontos de falha e minimize o âmbito das falhas.
Testes de fiabilidade Os ensaios regulares devem ser efetuados como parte de cada alteração importante para validar os limiares, metas e pressupostos existentes.
Monitorização da fiabilidade Obtenha uma imagem geral da saúde da aplicação. Se algo falhar, tens de saber que falhou, quando falhou, e porquê.
Padrões de fiabilidade As aplicações devem ser concebidas e implementadas para maximizar a disponibilidade.

Passo seguinte