Lista de verificação de revisão de design para confiabilidade

Esta lista de verificação apresenta um conjunto de recomendações para você usar para avaliar as estratégias de confiabilidade, resiliência e recuperação de falhas em seu design de arquitetura. Para garantir a confiabilidade, identifique a melhor infraestrutura e design de aplicativo para sua carga de trabalho. Tome essas decisões com base em seus requisitos de negócios mapeados para métricas de destino de disponibilidade e capacidade de recuperação.

Para implementar um design confiável, considere completamente os pontos de decisão em seu design e esteja ciente de como essas decisões afetam sua carga de trabalho. Essa lista de verificação e os guias que acompanham fornecem recursos para ajudá-lo a tomar essas decisões. Torne a confiabilidade da carga de trabalho uma consideração central em todo o ciclo de vida de design, desenvolvimento e operação da carga de trabalho.

Lista de verificação

Aborde seu design com foco na confiabilidade para ajudar a garantir que você projete uma carga de trabalho resiliente, gerenciável e repetível. Se você não incluir práticas de confiabilidade e considerar as compensações, seu design estará potencialmente em risco. Considere cuidadosamente todos os pontos abordados na lista de verificação para incutir confiança no sucesso do sistema.

  Código Recomendação
RE:01 Projete sua carga de trabalho para se alinhar aos objetivos de negócios e evitar complexidade ou sobrecarga desnecessárias. Use uma abordagem prática e equilibrada para tomar decisões de design que fornecem os resultados desejados. Contenha seu design para as necessidades para reduzir ineficiências e possíveis problemas.
RE:02 Identifique e classifique os fluxos do usuário e do sistema. Use uma escala de criticalidade com base em seus requisitos de negócios para priorizar os fluxos.
RE:03 Use a FMA (análise de modo de falha) para identificar e priorizar possíveis falhas nos componentes da solução. Execute o FMA para ajudá-lo a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e se recupera.
RE:04 Defina os destinos de confiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize as metas para negociar, obter consenso, definir expectativas e impulsionar ações para alcançar o estado ideal. Use os destinos definidos para criar o modelo de integridade. O modelo de integridade define como são os estados íntegros, degradados e não íntegros.
RE:05
RE:05
RE:05
Adicione redundância em diferentes níveis, especialmente para fluxos críticos. Aplique redundância às camadas de computação, dados, rede e outras camadas de infraestrutura de acordo com as metas de confiabilidade identificadas.
RE:06
RE:06
Implemente uma estratégia de dimensionamento oportuna e confiável nos níveis de aplicativo, dados e infraestrutura.
RE:07
RE:07
RE:07
Fortaleça a resiliência e a capacidade de recuperação de sua carga de trabalho implementando medidas de autopreservação e autorrecuperação. Crie recursos na solução usando padrões de confiabilidade baseados em infraestrutura e padrões de design baseados em software para lidar com falhas de componente e erros transitórios. Crie recursos no sistema para detectar falhas no componente da solução e iniciar automaticamente a ação corretiva enquanto a carga de trabalho continua operando com funcionalidade completa ou reduzida.
RE:08 Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia de caos em seus ambientes de teste e produção. Use o teste para garantir que sua implementação normal de degradação e estratégias de dimensionamento sejam eficazes executando o mau funcionamento ativo e o teste de carga simulado.
RE:09 Implemente planos de BCDR (continuidade dos negócios e recuperação de desastres) estruturados, testados e documentados que se alinham com as metas de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo.
RE:10 Medir e modelar os sinais de integridade da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos de chave.

Próximas etapas

Recomendamos que você examine as compensações de confiabilidade para explorar outros conceitos.