Compartilhar via


Visão geral do Agente SRE do Azure (versão prévia)

A SRE (Engenharia de Confiabilidade do Site) concentra-se na criação de sistemas confiáveis e escalonáveis por meio de automação e gerenciamento proativo. O Agente SRE do Azure traz esses princípios para seus aplicativos hospedados no Azure, fornecendo uma ferramenta de IA que ajuda a sustentar ambientes de nuvem de produção. O Agente SRE ajuda você a responder a incidentes de forma rápida e eficaz, aliviando a labuta do gerenciamento manual de ambientes de produção. O agente usa os recursos de raciocínio de LLMs (grandes modelos de linguagem) para identificar os logs e as métricas necessários para análise de causa raiz rápida e mitigação de problemas. O Agente SRE do Azure oferece maior tempo de atividade dos serviços e custos operacionais reduzidos.

Os agentes têm acesso a todos os recursos dentro dos grupos de recursos associados ao agente. Portanto, agentes:

  • Avaliar continuamente a atividade de recursos e monitorar recursos ativos

  • Enviar notificações proativas sobre aplicativos não íntegros ou instáveis

O Agente SRE do Azure também se integra aos Alertas do Azure Monitor e ao PagerDuty para dar suporte a soluções de notificação avançadas.

Observação

O recurso do Agente SRE está em versão prévia pública. Para se inscrever na lista de espera, preencha o aplicativo do Agente SRE.

Usando um Agente SRE, você consente com os Termos de Uso Complementares específicos do produto para versões prévias do Microsoft Azure.

Características principais

O Agente SRE do Azure oferece vários recursos importantes que aprimoram a confiabilidade e o desempenho dos recursos do Azure:

  • Thread de boas-vindas: quando você cria seu agente pela primeira vez, um novo thread é criado que fornece a análise inicial de seus serviços. A análise de ambiente cria um instantâneo de todos os recursos gerenciados pelo agente. Além disso, o agente gera uma lista de aplicativos encontrados nos grupos de recursos gerenciados.

  • Tarefas diárias: todos os dias, o agente cria um relatório de recursos que resume o status dos serviços nos grupos de recursos que você gerencia.

  • Ferramentas: suporte a consultas e operações por meio da CLI do Azure e do Kubectl.

  • Fontes de dados: acesso às APIs do Azure Resource Manager e às fontes de dados de métricas do Azure Monitor.

  • Gerenciamento de incidentes: diagnosticar incidentes conversando diretamente com o agente ou conectando uma plataforma de gerenciamento de incidentes ao agente. Responda automaticamente a alertas do Azure Monitor ou a incidentes do PagerDuty com análise inicial.

  • Monitoramento proativo: monitoramento contínuo de recursos 24 horas por dia, 7 dias por semana com alertas em tempo real para possíveis problemas.

  • Mitigação automatizada: Detecção e mitigação automáticas de problemas comuns, reduzindo o tempo de inatividade e melhorando a integridade dos recursos. Enquanto os agentes tentam trabalhar em seu nome, toda a automação requer sua aprovação.

  • Práticas recomendadas de infraestrutura: Identifique e corrija recursos que não seguem as melhores práticas de segurança e as atualizações de ajuda.

  • Acelera a análise de causa raiz: Diagnosticar causas raiz de problemas de aplicativo analisando métricas e logs e sugerindo mitigações.

  • Visualização de recursos: visões completas das dependências de recursos e do estado de saúde.

    Captura de tela de um grafo de conhecimento do Agente SRE.

  • Suporte de mitigação: o Agente SRE pode corrigir a configuração do aplicativo e os serviços dependentes. Para problemas de código, o agente fornece rastreamentos de pilha e pode criar um problema do GitHub para ajudar a resolver problemas. Os itens a seguir descrevem os recursos específicos do serviço do agente:

    • Serviço de Aplicativo do Azure: reverter implantação, escalonar recursos, reiniciar o aplicativo.

    • Aplicativos de Contêiner do Azure: reverter a implantação, dimensionar os recursos para cima/para baixo e reiniciar o aplicativo.

    • Serviço de Kubernetes do Azure: reinicie pods/implantações, reverta implantações para revisões anteriores, dimensione os recursos para aumentar ou diminuir, e corrija as definições de recursos.

Relatórios

Um Agente SRE funciona para monitorar e manter proativamente seus serviços do Azure. Todos os dias, seu agente cria relatórios de recursos diários que fornecem insights sobre a integridade e o status de seus aplicativos.

Os relatórios incluem:

  • Resumo do incidente: Gera informações sobre incidentes gerados pelo Agente SRE no dia anterior. As categorias incluem: ativa, atenuada ou resolvida.

  • Desempenho e integridade do grupo de aplicativos: Principais métricas para cada grupo de aplicativos avaliar a estabilidade e o desempenho do sistema. As métricas incluem: disponibilidade, uso da CPU e uso de memória.

  • Resumo da ação: Resumos de detalhes e insights importantes relevantes para a integridade e manutenção de seus recursos do Azure.

Cenários

Cenário Causa possível Mitigação de agentes
Aplicação inativa Problemas de código do aplicativo: bugs ou erros no código do aplicativo podem levar a falhas ou falta de resposta.

Implantação incorreta: configurações incorretas ou implantações com falha podem fazer com que o aplicativo falhe.

Problemas elevados de CPU/memória/thread: o esgotamento de recursos devido ao alto uso de CPU, memória ou thread pode afetar o desempenho do aplicativo.
O Agente SRE pode detectar esses problemas e fornecer insights ou correções acionáveis. Por exemplo, ele pode identificar uma diminuição na disponibilidade do aplicativo Web que coincide com uma troca de slot recente e recomenda a troca de slots back como a primeira etapa de mitigação.
Falhas na extração de imagens de contêiner Disponibilidade da imagem: a imagem solicitada pode não estar disponível ou pode estar ausente.

Conectividade de rede: problemas de rede podem interromper a conexão com o aplicativo de contêiner.

Problemas de conectividade do Registro: problemas de conexão com o registro de contêineres podem impedir a extração de imagens.
O agente SRE pode detectar falhas na extração de imagens de contêiner e fornecer diagnósticos detalhados. Ele pode recomendar soluções como retornar à última revisão saudável conhecida e atualizar a referência da imagem.

Um agente pode fornecer informações detalhadas sobre diferentes aspectos de seus aplicativos e recursos. Os exemplos a seguir demonstram os tipos de perguntas que você pode fazer ao seu agente:

  • Com o que você pode me ajudar?
  • Por que meu aplicativo não está funcionando?
  • A quais serviços meu recurso está conectado?
  • Você pode fornecer práticas recomendadas para meu recurso?
  • Qual é a utilização da CPU e da memória do meu aplicativo?

Além disso, aqui estão alguns prompts que você pode usar para ajudá-lo a interagir com seu agente:

  • Quais aplicativos habilitaram o Dapr?
  • Listar réplicas para meu aplicativo de contêiner
  • Quais aplicativos têm o log de diagnóstico ativado?
  • Dê-me um mapa de calor individual para cada conta de armazenamento.
  • Qual revisão do meu aplicativo de contêiner está ativa no momento?
  • Quais são algumas práticas recomendadas que meu aplicativo deve seguir?
  • Qual é a configuração de entrada para meu aplicativo de contêiner?
  • Há algum slot de preparo configurado para este aplicativo Web?
  • Quais imagens de contêiner são usadas por cada um dos meus Aplicativos de Contêiner?
  • Liste todos os grupos de recursos que você está gerenciando em todas as assinaturas.
  • Desenhe o mapa de calor das latências de armazenamento nos últimos 14 dias para contas de armazenamento.
  • Mostre-me uma visualização dos tempos de resposta dos Aplicativos de Contêiner para a semana passada.
  • Lista [Aplicativos de Contêiner/Aplicativos Web/etc.] que você está gerenciando em todas as assinaturas.
  • Visualize a divisão de Aplicativos de Contêiner versus Aplicativos Web versus clusters do AKS gerenciados em todas as assinaturas como um gráfico de pizza.

Acesso à visualização

O acesso a um agente SRE está disponível apenas em modo de pré-visualização. Para se inscrever para acesso, preencha o aplicativo do Agente SRE.