Explorar a excelência operacional

Concluído

As práticas de DevOps não abrangem apenas o build, o teste e a entrega de software, mas também se estendem a aspectos operacionais da vida organizacional. Em particular, o DevOps pode ajudar a alcançar a excelência operacional seguindo seus princípios em operações diárias. A organização descrita no cenário de exemplo se beneficiaria da adoção dessa abordagem para resolver seus desafios atuais. Nesta unidade, saiba mais sobre os principais aspectos da excelência operacional no contexto do DevOps.

O que é excelência operacional?

Diagrama mostrando uma representação de grafo de monitoramento.

A excelência operacional é um conjunto de práticas que promovem eficiência, resiliência e melhoria contínua nas operações diárias. Os principais aspectos da excelência operacional se sobrepõem em grande parte às práticas de DevOps, como automação, colaboração, melhoria contínua, escalabilidade e flexibilidade. No entanto, há alguns que são abordados aqui devido ao seu significado operacional. Esses aspectos incluem:

  • Operações contínuas: direciona a criação e a manutenção de um ambiente em que a necessidade de tempo de inatividade é minimizada ou até mesmo eliminada.
  • Monitoramento contínuo, observabilidade: enfatiza a importância de monitorar aplicativos e a infraestrutura subjacente em tempo real. O objetivo final é detectar proativamente (em vez de reativamente) quaisquer problemas iminentes.
  • Modelagem de Saúde: envolve a criação de modelos que representam o comportamento e o desempenho esperados de um sistema de destino em condições diferentes. Isso serve como a linha de base para detectar anomalias, o que pode indicar possíveis problemas.
  • Engenharia de confiabilidade: usa práticas de engenharia de caos e injeção de falhas para aplicar medidas proativas que levam ao aumento da resiliência.
  • de gerenciamento de incidentes: concentra-se na resposta e resolução de incidentes eficientes, incluindo gerenciamento de incidentes bem definidos, canais de comunicação confiáveis, correção automatizada e aprendizado contínuo para minimizar a possibilidade de problemas recorrentes.
  • Integração de segurança: incorpora práticas de segurança ao ciclo de vida das operações.
  • Teste shift-right: usa práticas como inicialização escura e sinalizadores de recursos no ambiente de produção.