Lista de verificação de revisão de design para Fiabilidade
Esta lista de verificação apresenta um conjunto de recomendações que pode utilizar para avaliar as estratégias de fiabilidade, resiliência e recuperação de falhas na estrutura da arquitetura. Para garantir a fiabilidade, identifique a melhor infraestrutura e estrutura da aplicação para a carga de trabalho. Tome estas decisões com base nos seus requisitos empresariais que estão mapeados para métricas de destino de disponibilidade e capacidade de recuperação.
Para implementar uma estrutura fiável, considere cuidadosamente os pontos de decisão na sua conceção e tenha em atenção como essas decisões afetam a sua carga de trabalho. Esta lista de verificação e os guias que o acompanham fornecem recursos para o ajudar a tomar essas decisões. Torne a fiabilidade da carga de trabalho uma consideração central ao longo da estrutura, desenvolvimento e ciclo de vida da operação da carga de trabalho.
Lista de Verificação
Aborde a sua estrutura com foco na fiabilidade para ajudar a garantir que cria uma carga de trabalho resiliente, gerível e repetível. Se não incluir práticas de fiabilidade e considerar as desvantagens, a sua conceção está potencialmente em risco. Considere cuidadosamente todos os pontos abrangidos na lista de verificação para incutir confiança no sucesso do seu sistema.
Código | Recomendação | |
---|---|---|
☐ | RE:01 | Crie a carga de trabalho para se alinhar com objetivos empresariais e evitar complexidades ou sobrecargas desnecessárias. Utilize uma abordagem prática e equilibrada para tomar decisões de design que fornecem os resultados pretendidos. Contenha a sua estrutura para as necessidades de reduzir ineficiências e potenciais problemas. |
☐ | RE:02 | Identifique e avalie os fluxos de utilizador e sistema. Utilize um dimensionamento de criticidade com base nos seus requisitos empresariais para priorizar os fluxos. |
☐ | RE:03 | Utilize a análise do modo de falha (FMA) para identificar e priorizar potenciais falhas nos componentes da solução. Execute o FMA para o ajudar a avaliar o risco e o efeito de cada modo de falha. Determine como a carga de trabalho responde e recupera. |
☐ | RE:04 | Defina destinos de fiabilidade e recuperação para os componentes, os fluxos e a solução geral. Visualize os objetivos para negociar, obter consenso, definir expectativas e impulsionar ações para alcançar o estado ideal. Utilize os destinos definidos para criar o modelo de estado de funcionamento. O modelo de estado de funcionamento define o aspeto de estados saudáveis, degradados e em mau estado de funcionamento. |
☐ |
RE:05 RE:05 RE:05 |
Adicione redundância a diferentes níveis, especialmente para fluxos críticos. Aplique redundância aos escalões de computação, dados, rede e outras infraestruturas de acordo com os destinos de fiabilidade identificados. |
☐ |
RE:06 RE:06 |
Implemente uma estratégia de dimensionamento atempadamente e fiável nos níveis de aplicação, dados e infraestrutura. |
☐ |
RE:07 RE:07 RE:07 |
Fortaleça a resiliência e a capacidade de recuperação da carga de trabalho ao implementar medidas de auto-preservação e auto-recuperação. Crie capacidades para a solução através de padrões de fiabilidade baseados na infraestrutura e padrões de conceção baseados em software para lidar com falhas de componentes e erros transitórios. Crie capacidades no sistema para detetar falhas de componentes da solução e iniciar automaticamente a ação corretiva enquanto a carga de trabalho continua a funcionar com funcionalidades completas ou reduzidas. |
☐ | RE:08 | Teste cenários de resiliência e disponibilidade ao aplicar os princípios da engenharia do caos nos seus ambientes de teste e produção. Utilize os testes para garantir que a implementação e as estratégias de dimensionamento de degradação corretas são eficazes ao realizar um mau funcionamento ativo e testes de carga simulados. |
☐ | RE:09 | Implemente planos estruturados, testados e documentados de continuidade empresarial e recuperação após desastre (BCDR) que se alinham com os objetivos de recuperação. Os planos têm de abranger todos os componentes e o sistema como um todo. |
☐ | RE:10 | Medir e modelar os sinais de estado de funcionamento da solução. Capture continuamente o tempo de atividade e outros dados de fiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos chave. |
Passos seguintes
Recomendamos que reveja as desvantagens de Fiabilidade para explorar outros conceitos.