Teste e validação para cargas de trabalho de nível de operadora

Artigo
07/11/2023

Testes e validação contínuas podem detectar e ajudar a resolve problemas antes que eles se tornem potencialmente fatais. Considere metodologias de teste conhecidas, como testes de caos. Os testes devem ser realizados durante o tempo de vida do aplicativo porque o ambiente de implantação é complexo e de várias camadas.

Importante

Mais detalhes sobre como implementar a validação contínua para sua carga de trabalho crítica estão disponíveis aqui.

Além disso, a capacidade de suporte deve ser forte durante todo o tempo de vida do aplicativo. Os sistemas altamente disponíveis dependem de equipes de suporte de alta qualidade capazes de responder rapidamente e resolve problemas no campo, realizar a análise de causa raiz e procurar falhas sistemáticas de design.

Provar que um aplicativo é bem projetado requer testes, o ideal é usar uma estrutura de teste de caos para evitar desvios de teste. Essa metodologia simula falhas de todos os elementos dependentes. Testes robustos e regulares devem provar o design e validar a análise do modo de falha original.

Um sinalizador de aviso deve ser gerado para qualquer aplicativo ou serviço para o qual as medidas de redundância ou resiliência não podem ser testadas porque são consideradas muito arriscadas.

Se as medidas de redundância e resiliência não forem testadas, a única suposição válida, do ponto de vista crítico à segurança, é que essas medidas não funcionarão quando necessário. O uso de caminhos comuns para atualizações de software, atualizações de configuração e recuperação de falhas, por exemplo, fornece um bom mecanismo para validar se as medidas funcionarão.

Erro humano

A experiência da Telcos é que até 60% de todas as interrupções são, na verdade, resultado de um erro humano. Um aplicativo bem projetado reconhece isso e busca compensar. Aqui estão algumas abordagens sugeridas, mas a lista não é exaustiva e o que é aplicável a uma determinada carga de trabalho precisa ser considerado caso a caso.

Maximizar o uso da automação evita que operadores humanos precisem inserir comandos longos e complexos ou realizar operações repetitivas em vários elementos. No entanto, deve-se tomar cuidado para considerar o raio de explosão, pois há um risco de automação realmente ampliar o efeito de um erro de configuração, permitindo que ele seja implantado em uma rede global em segundos. Verificações e saldos fortes, como portões de decisão que exigem aprovação humana antes de prosseguir para a próxima etapa, são aconselhados.
Aproveitar verificadores de sintaxe e ferramentas de simulação minimiza a chance de erros ou efeitos colaterais imprevistos de alterações que entram em produção generalizada.
O uso de implantações canário cuidadosamente controladas garante que o efeito das alterações na produção completa possa ser observado e validado no escopo limitado.
Garantir que as interfaces de gerenciamento e os processos necessários para a recuperação de falhas sejam os mesmos usados na operação diária evita que os operadores sejam confrontados com telas desconhecidas e métodos de procedimentos mal usados (MOPs) em momentos de pico de estresse.

Clientes

As bibliotecas de cliente comuns também fazem parte do sistema de ponta a ponta e precisam de análise e teste equivalentes. Problemas de software no código do cliente comum que afetam simultaneamente uma proporção dos clientes do sistema afetarão a disponibilidade geral da mesma forma que os problemas do lado do servidor de aplicativos.

Próxima etapa

Reveja os cinco pilares da excelência arquitetônica para formar uma base sólida para suas cargas de trabalho de nível de operadora.

Azure Well-Architected Framework

Compartilhar via

Teste e validação para cargas de trabalho de nível de operadora

Erro humano

Clientes

Próxima etapa

Comentários

Comentários

Recursos adicionais