Lista de verificação de revisão de design para Fiabilidade

Esta lista de verificação apresenta um conjunto de recomendações que pode utilizar para avaliar as estratégias de fiabilidade, resiliência e recuperação de falhas na estrutura da arquitetura. Para garantir a fiabilidade, identifique a melhor infraestrutura e estrutura da aplicação para a carga de trabalho. Tome estas decisões com base nos seus requisitos empresariais que estão mapeados para métricas de destino de disponibilidade e capacidade de recuperação.

Para implementar uma estrutura fiável, considere cuidadosamente os pontos de decisão na sua conceção e tenha em atenção como essas decisões afetam a sua carga de trabalho. Esta lista de verificação e os guias que o acompanham fornecem recursos para o ajudar a tomar essas decisões. Torne a fiabilidade da carga de trabalho uma consideração central ao longo da estrutura, desenvolvimento e ciclo de vida da operação da carga de trabalho.

Lista de Verificação

Aborde a sua estrutura com foco na fiabilidade para ajudar a garantir que cria uma carga de trabalho resiliente, gerível e repetível. Se não incluir práticas de fiabilidade e considerar as desvantagens, a sua conceção está potencialmente em risco. Considere cuidadosamente todos os pontos abrangidos na lista de verificação para incutir confiança no sucesso do seu sistema.

  Código Recomendação
RE:01 Crie a carga de trabalho para se alinhar com objetivos empresariais e evitar complexidades ou sobrecargas desnecessárias. Utilize uma abordagem prática e equilibrada para tomar decisões de design que fornecem os resultados pretendidos. Contenha a sua estrutura para as necessidades de reduzir ineficiências e potenciais problemas.
RE:02 Identifique e avalie os fluxos de utilizador e sistema. Utilize um dimensionamento de criticidade com base nos seus requisitos empresariais para priorizar os fluxos.
RE:03 Utilize a análise do modo de falha (FMA) para identificar e priorizar potenciais falhas nos componentes da solução. Execute o FMA para o ajudar a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e recupera.
RE:04 Defina destinos de fiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize os objetivos para negociar, obter consenso, definir expectativas e impulsionar ações para alcançar o estado ideal. Utilize os destinos definidos para criar o modelo de estado de funcionamento. O modelo de estado de funcionamento define o aspeto de estados saudáveis, degradados e em mau estado de funcionamento.
RE:05
RE:05
RE:05
Adicione redundância a diferentes níveis, especialmente para fluxos críticos. Aplique redundância aos escalões de computação, dados, rede e outras infraestruturas de acordo com os destinos de fiabilidade identificados.
RE:06
RE:06
Implemente uma estratégia de dimensionamento atempadamente e fiável nos níveis de aplicação, dados e infraestrutura.
RE:07
RE:07
RE:07
Fortaleça a resiliência e a capacidade de recuperação da carga de trabalho ao implementar medidas de auto-preservação e auto-recuperação. Crie capacidades para a solução através de padrões de fiabilidade baseados na infraestrutura e padrões de conceção baseados em software para lidar com falhas de componentes e erros transitórios. Crie capacidades no sistema para detetar falhas de componentes da solução e iniciar automaticamente a ação corretiva enquanto a carga de trabalho continua a funcionar com funcionalidades completas ou reduzidas.
RE:08 Teste cenários de resiliência e disponibilidade ao aplicar os princípios da engenharia do caos nos seus ambientes de teste e produção. Utilize os testes para garantir que a implementação e as estratégias de dimensionamento de degradação corretas são eficazes ao realizar um mau funcionamento ativo e testes de carga simulados.
RE:09 Implemente planos estruturados, testados e documentados de continuidade empresarial e recuperação após desastre (BCDR) que se alinham com os objetivos de recuperação. Os planos têm de abranger todos os componentes e o sistema como um todo.
RE:10 Medir e modelar os sinais de estado de funcionamento da solução. Capture continuamente o tempo de atividade e outros dados de fiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos chave.

Passos seguintes

Recomendamos que reveja as desvantagens de Fiabilidade para explorar outros conceitos.