Lista de verificação de design para garantir a confiabilidade

Esta lista de verificação apresenta um conjunto de recomendações para você usar para avaliar as estratégias de confiabilidade, resiliência e recuperação de falhas em seu design de arquitetura. Para garantir a confiabilidade, identifique a melhor infraestrutura e design de aplicativo para sua carga de trabalho. Tome essas decisões com base nas suas necessidades empresariais mapeadas para objetivos de disponibilidade e recuperabilidade.

Para implementar um design confiável, considere completamente os pontos de decisão em seu design e esteja ciente de como essas decisões afetam sua carga de trabalho. Essa lista de verificação e os guias que acompanham fornecem recursos para ajudá-lo a tomar essas decisões. Torne a confiabilidade da carga de trabalho uma consideração central em todo o ciclo de vida da operação, do desenvolvimento e do design da carga de trabalho.

Lista de verificação

Aborde seu design com foco na confiabilidade para ajudar a garantir que você projete uma carga de trabalho resiliente, gerenciável e repetível. Se você não incluir práticas de confiabilidade e considerar as compensações, seu design estará potencialmente em risco. Considere cuidadosamente todos os pontos abordados na lista de verificação para incutir confiança no sucesso do sistema.

  Code Recomendação
RE:01 Concentre o design da carga de trabalho na simplicidade e na eficiência. Use uma abordagem prática para evitar complexidade desnecessária ao atender às suas metas e requisitos de negócios.
RE:02 Identifique e classifique os fluxos de usuário e sistema. Use uma escala de criticidade com base em seus requisitos de negócios para priorizar os fluxos.
RE:03 Use a FMA (análise de modo de falha) para identificar possíveis falhas em sua carga de trabalho. Identifique dependências e pontos de falha e desenvolva estratégias de mitigação para essas falhas.
RE:04 Defina metas de confiabilidade e recuperação para sua carga de trabalho. Use as metas para informar seu projeto e como a base do seu modelo de saúde.
RE:05 Adicione redundância em diferentes níveis, especialmente para fluxos críticos, para ajudar a atender às suas metas de confiabilidade. Considere componentes de infraestrutura redundantes, como computação e rede, e várias instâncias da sua solução.
RE:06 Implemente uma estratégia de dimensionamento oportuna e confiável nos níveis de aplicativo, dados e infraestrutura. Baseie a estratégia de dimensionamento em padrões de uso reais ou previstos e minimize a intervenção manual.
RE:07 Fortaleça a resiliência de sua carga de trabalho implementando medidas de autopreservação e autorrecuperação. Use recursos internos e padrões de nuvem bem estabelecidos para ajudar sua carga de trabalho a permanecer funcional durante e se recuperar de incidentes.
RE:08 Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia do caos. Certifique-se de que sua implementação de degradação gradual e estratégias de dimensionamento sejam eficazes executando testes ativos de falhas e testes de carga simulado.
RE:09 Implemente planos estruturados, testados e documentados de recuperação de desastre (DR) que se alinham com os destinos de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo.
RE:10 Medir e acompanhar continuamente a integridade do sistema usando indicadores de tempo de atividade e confiabilidade entre componentes e fluxos críticos. Certifique-se de que esses dados sejam mantidos e acessíveis para dar suporte à detecção, resposta e análise pós-incidente oportuna.

Próximas etapas

Recomendamos que você examine as compensações de confiabilidade para explorar outros conceitos.