Estrutura para operações
Criar uma aplicação para que a equipa de operações tenha as ferramentas necessárias
A cloud alterou significativamente a função da equipa de operações. Agora, já não é responsável por gerir o hardware e a infraestrutura que aloja a aplicação. Dito isto, as operações continuam a ser uma parte fundamental da execução de uma aplicação na cloud com êxito. Algumas das funções importantes da equipa de operações incluem:
- Implementação
- Monitorização
- Escalamento
- Resposta a incidentes
- Auditoria de segurança
O registo e o rastreio robustos são particularmente importantes nas aplicações na cloud. Envolva a equipa de operações na conceção e planeamento, para garantir que a aplicação lhes dá os dados e informações de que precisam para serem bem-sucedidos.
Recomendações
Torne todos os aspetos observáveis. Assim que uma solução é implementada e executada, os registos e os rastreios são a principal fonte de informação no sistema. O rastreio regista um caminho através do sistema e é útil para identificar os estrangulamentos, os problemas de desempenho e os pontos de falha. O registo captura eventos individuais, tais como as alterações de estado da aplicação, os erros e as exceções. Inicie sessão na produção; caso contrário, deixa de ter acesso às informações quando mais precisar delas.
Instrumentalize a aplicação para fins de monitorização. A monitorização fornece informações sobre o bom (ou mau) desempenho de uma aplicação em termos de disponibilidade, de desempenho e do estado do sistema. Por exemplo, a monitorização indica se está a cumprir o SLA. A monitorização ocorre durante o funcionamento normal do sistema. Por sua vez, esta deve ser feita o mais aproximadamente possível do tempo real, para que a equipa de operações possa reagir rapidamente aos problemas. Idealmente, a monitorização pode ajudar a evitar problemas antes que estes produzam uma falha crítica. Para obter mais informações, veja Monitorização e diagnóstico.
Instrumentalize a aplicação para fins de análise da causa raiz. A análise da causa raiz é o processo de localização da causa subjacente das falhas. Esta ocorre após a ocorrência de uma falha.
Utilize o rastreio distribuído. Utilize um sistema de rastreio distribuído concebido para simultaneidade, assincronia e dimensionamento da cloud. Os rastreios devem incluir um ID de correlação, que flui através dos limites dos serviços. Uma operação única pode envolver chamadas para vários serviços de aplicações. Se uma operação falhar, o ID de correlação ajudará a identificar a causa da falha.
Uniformize os registos e as métricas. A equipa de operações terá de agregar registos dos vários serviços na sua solução. Se todos os serviços utilizarem o seu próprio formato de registo, tornar-se-á difícil ou impossível obter informações úteis dos mesmos. Defina um esquema comum que inclua campos como ID de correlação, nome do evento, endereço IP do remetente, entre outros. Os serviços individuais podem derivar esquemas personalizados que herdam o esquema-base e contêm campos adicionais.
Automatize as tarefas de gestão, incluindo o aprovisionamento, a implementação e a monitorização. A automatização de uma tarefa torna-a repetível e menos propensa a erros humanos.
Trate a configuração como código. Verifique os ficheiros de configuração num sistema de controlo de versão, para que possa controlar e criar versões das suas alterações e reverter as mesmas se necessário.