Plataformas de gestão de incidentes no Azure SRE Agent

Uma plataforma de incidentes é o sistema que informa o seu agente quando algo corre mal. Ao ligar a sua plataforma de incidentes, o seu agente pode receber alertas, investigar problemas e agir automaticamente, sem esperar que alguém inicie um chat.

Sem uma plataforma de incidentes, o seu agente é reativo: os utilizadores fazem perguntas e investiga a pedido. Com um conectado, o seu agente torna-se proativo: captura incidentes no instante em que ocorrem e começa a trabalhar imediatamente.

Plataformas suportadas

Plataforma O que oferece
Azure Monitor Não são necessárias credenciais. Pode ligar-se no assistente e os alertas dos teus grupos de recursos geridos fluem automaticamente, com alertas recorrentes fundidos num único thread
PagerDuty Alertas de incidentes e gestão de chamadas com integração baseada em API
ServiceNow Integração de gestão de serviços de TI Empresarial

Apenas uma plataforma de incidente pode estar ativa de cada vez. Mudar para outra plataforma desliga a atual.

O que a conexão de uma plataforma de incidentes permite

Uma vez ligado, o seu agente ganha estas capacidades:

Receção automática de incidentes

Os incidentes chegam ao seu agente no momento em que são criados na sua plataforma. Ninguém precisa de copiar e colar alertas ou iniciar uma investigação manualmente. O agente apanha os incidentes automaticamente.

Cartões de incidente detalhados

Incidentes recebidos de todas as plataformas suportadas, incluindo PagerDuty, ServiceNow e Azure Monitor, são exibidos na interface de chat como rich cards. Cada cartão mostra:

Campo Detalhes
Distintivo de severidade Codificado por cores por prioridade (por exemplo, P1/Sev0 = vermelho, P2/Sev1 = laranja)
Marca temporal Quando o incidente aconteceu
Título Título do incidente com prefixo de plataforma
Situação Estado atual (por exemplo, Desencadeado, Confirmado)
Descrição Resumo do incidente
Plano de resposta Ligação ao plano de resposta que trata do incidente (se configurado)
Ver Detalhes Ligação ao incidente na sua plataforma de origem

Os cartões enriquecidos substituem as notificações de incidentes em texto simples usadas anteriormente, facilitando a visualização dos detalhes do incidente num instante.

Interação incidente

O seu agente pode ler e responder ao incidente. Estas ferramentas estão disponíveis automaticamente quando se liga à plataforma correspondente, sem necessidade de configuração adicional.

PlataformaCapacidades de leituraCapacidades de escrita
Azure MonitorDetalhes do alerta, gravidade, recursos afetadosConfirmar alertas, fechar alertas
PagerDutyDetalhes do incidente, diagnósticosReconhecer, decidir, acrescentar notas
ServiceNowDetalhes do incidentePublicar entradas de discussão, reconhecer, resolver

Planos de resposta

Os planos de resposta definem o que o seu agente faz quando surgem tipos específicos de incidentes. Configura regras com base na gravidade do incidente, padrões de título ou outros critérios, e o agente segue automaticamente o plano.

Saiba mais: Planos de Resposta a Incidentes

Um plano de resposta pode:

  • Executar passos específicos de investigação
  • Use conectores e ferramentas específicas
  • Operar a um nível de autonomia definido (desde "apenas recolher informação" até "tomar medidas corretivas")
  • Tente a investigação automaticamente (até um limite configurável) antes de escalar para um humano

Os planos de resposta transformam o seu agente de um assistente de uso geral num respondedor de incidentes com procedimentos definidos para tipos de incidentes conhecidos.

Plano de resposta rápida

Quando liga uma plataforma de incidentes, pode ativar o plano de resposta Quickstart para criar automaticamente um plano de resposta predefinido. Este plano permite-lhe começar imediatamente:

Plataforma Elementos padrão de planos Nível de autonomia
Azure Monitor Alertas Sev0, Sev1, Sev2 Autônomo
PagerDuty Incidentes P1 Autônomo

O Azure Monitor suporta todos os níveis de gravidade (Sev0–Sev4). O plano de início rápido visa por defeito os alertas de maior prioridade. Pode personalizá-lo para incluir severidades adicionais ou criar planos separados para alertas de menor prioridade.

O plano de início rápido cria um plano de resposta chamado quickstart_handler assim:

  • Incidentes de jogos por prioridade ou gravidade
  • Abrange todos os serviços afetados
  • Funciona em modo totalmente autónomo
  • Pode ser personalizada ou desativada mais tarde

Pode personalizar este plano padrão ou criar planos de resposta adicionais com diferentes filtros e níveis de autonomia.

Acompanhar o valor dos incidentes

A secção Monitorizar → Métricas de Incidentes mostra como o seu agente lida com os incidentes ao longo do tempo.

Saiba mais: Monitorizar o Valor do Incidente

Métrico O que mostra
Incidentes analisados Incidentes totais que o agente processa
Mitigado por um agente Incidentes que o agente resolve de forma autónoma
Assistido por um agente Incidentes em que o agente ajuda e o utilizador conclui a resolução
Mitigado pelo utilizador Incidentes que o utilizador resolve com informações fornecidas pelo agente
Ação do utilizador pendente Incidentes à espera de intervenção humana

Use estas métricas para compreender a eficácia do seu agente e identificar planos de resposta que possam precisar de ajustes.

Plataformas incidentes vs. conectores

Estes conceitos funcionam em conjunto:

Plataformas de gestão de incidentes Conectores
Objetivo De onde vêm os alertas Os agentes de dados e ações podem USAR
Configurado em Construtor → Plataforma de Incidente Construtor → Conectores
Direção Inbound (fluxo de incidentes para agente) Saída (agente contacta os sistemas)
Exemplo O PagerDuty envia um alerta → agente investiga Agente questiona Kusto → encontra a causa raiz

O seu agente utiliza ambos os conceitos: a plataforma de incidentes desencadeia a investigação, e os conectores fornecem as ferramentas para investigar.

Recurso Por que é importante
Tutorial: Defina planos de resposta → Guia passo a passo para criar o seu plano de primeira resposta
Planos de resposta a incidentes Como os planos de resposta encaminham os incidentes para agentes aduaneiros
Automatizar a resposta a incidentes Capacidades de automação de incidentes de ponta a ponta
Acompanhar o valor dos incidentes Meça o impacto da resolução de incidentes pelo seu agente
Utilização de agentes de monitorização Monitorizar a utilização, informações da sessão e atividade do agente
PagerDuty Configuração e capacidades específicas do PagerDuty
ServiceNow Configuração e capacidades específicas do ServiceNow
Alertas do Azure Monitor Alertas do Azure Monitor, fusão de alertas recorrentes e mapeamento de severidade
Conectores → Como os conectores fornecem ferramentas para investigação