Partilhar via


Lista de verificação de recomendações para fiabilidade

Esta lista de verificação apresenta um conjunto de recomendações para utilizar para avaliar as estratégias de fiabilidade, resiliência e recuperação de falhas na estruturação da sua arquitetura. Para assegurar a fiabilidade, identifique a melhor infraestrutura e estrutura da aplicação para a sua carga de trabalho. Tome estas decisões com base nas suas necessidades de negócio mapeadas para métricas de destino de disponibilidade e capacidade de recuperação.

Para implementar uma estrutura fiável, considere cuidadosamente os pontos de decisão na sua estrutura e esteja ciente de como essas decisões afetam a sua carga de trabalho. Esta lista de verificação e os guias que a acompanham oferecem recursos para ajudá-lo a tomar essas decisões. Faça da fiabilidade da carga de trabalho uma consideração central em cada fase da estruturação, desenvolvimento e ciclo de vida da operação da carga de trabalho.

Lista de Verificação

Aborde a sua estrutura com foco na fiabilidade para ajudar a garantir que estruture uma carga de trabalho resiliente, gerível e repetível. Se não incluir práticas de fiabilidade e considerar as contrapartidas, a sua estrutura estará potencialmente em risco. Considere cuidadosamente todos os pontos abordados na lista de verificação para incutir confiança no êxito do seu sistema.

  Código Recomendação
RE:01 Projete sua carga de trabalho para se alinhar com os objetivos de negócios e evitar complexidade ou sobrecarga desnecessárias. Utilizar uma abordagem prática e equilibrada para tomar decisões de conceção que produzam os resultados desejados. Limite o seu design às necessidades para reduzir as ineficiências e os potenciais problemas.
RE:02 Identifique e classifique fluxos de utilizadores e de sistema. Utilize uma escala de criticidade com base nos requisitos do seu negócio para priorizar os fluxos.
RE:03 Utilize a análise do modo de falha (FMA) para identificar e priorizar potenciais falhas nos componentes da solução. Execute o FMA para ajudá-lo a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e se recupera.
RE:04 Defina metas de fiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize as metas para negociar, obter consenso, definir expetativas e impulsionar ações para alcançar o estado ideal. Utilize os destinos definidos para criar o modelo de estado de funcionamento. O modelo de estado de funcionamento define como são os estados em bom estado de funcionamento, os estados degradados e os estados em mau estado de funcionamento.
RE:05
RE:05
Fortaleça a resiliência de sua carga de trabalho implementando o tratamento de erros e o tratamento de falhas transitórias. Crie capacidades na solução para processar falhas de componentes e erros transitórios.
RE:06 Teste cenários de resiliência e disponibilidade aplicando os princípios da engenharia do caos em seus ambientes de teste e produção. Utilize o teste para garantir que as suas estratégias de implementação de degradação graciosa sejam eficazes, executando um mau funcionamento ativo e testes de carga simulados.
RE:07 Implemente planos estruturados, testados e documentados de continuidade de negócios e recuperação de desastres (BCDR) que se alinhem com as metas de recuperação. Os planos devem abranger todos os componentes e o sistema como um todo.
RE:08 Meça e publique os indicadores de saúde da solução. Capture continuamente o tempo de atividade e outros dados de fiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos-chave.

Próximos passos