Descrição geral da avaliação do agente

Para melhorar a qualidade dos agentes declarativos e dos agentes do motor personalizado, crie e execute avaliações de agentes. As avaliações de agentes aplicam-se a quaisquer agentes, independentemente de utilizar Copilot Studio, o SDK de Agentes do Microsoft 365 ou a Biblioteca de IA do Microsoft Teams para criar o seu agente.

Por que motivo a avaliação é importante

Sem avaliação, não pode medir de forma fiável se as alterações ao agente melhoram ou degradam a qualidade. Os desafios comuns incluem:

  • As alterações são testadas manualmente, sem forma de confirmar que ajudaram.
  • Os problemas comunicados pelo utilizador não podem ser reproduzidos de forma consistente.
  • A atualização de origens de conhecimento comporta riscos porque não consegue prever o impacto.
  • Os intervenientes perguntam se a qualidade melhorou e não pode quantificar a alteração.

A avaliação fornece um ciclo de comentários repetível que aborda cada um destes desafios:

  • Faça uma alteração. Execute o conjunto de testes. Os resultados mostram exatamente o que melhorou ou regrediu.
  • Faça a triagem de um relatório de utilizador. Adicione-o como um caso de teste, corrija o problema e mantenha o caso no conjunto de regressão para que permaneça corrigido.
  • Atualizar origens de conhecimento. Execute avaliações para detetar regressões antes de os utilizadores o fazerem.
  • Responder a perguntas dos intervenientes com dados. Em vez de "é melhor", pode dizer "A precisão da política passou de 87% para 96%".

A avaliação ajuda-o a compreender o que está a funcionar e o que não está a funcionar e se as alterações melhoram o agente.

Conceitos principais de avaliação

As avaliações consistem nos seguintes conceitos principais:

  • Caso de teste
  • Conjunto de testes
  • Prompt
  • Asserção
  • Sinal de qualidade
  • Classificador
  • Dados de base

Quando executa uma avaliação:

  • Cada caso de teste envia o pedido ao agente.
  • A resposta do agente é verificada em relação a cada asserção com o classificador adequado.
  • Os resultados são marcados com sinais de qualidade para análise.
  • As métricas agregadas são calculadas em todo o conjunto de testes.

Caso de teste

Um caso de teste é um cenário de avaliação único que consiste em:

  • Uma linha de comandos
  • Comportamento esperado
  • Asserções

Um caso de teste bem concebido é:

  • Independente – pode ser executado sem depender de outros testes.
  • Repetível – produz resultados consistentes de passagem ou falha.
  • Específico – testa um cenário ou intenção.

Exemplo: Caso de teste PTO-001

  • Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
  • Comportamento esperado: devolva a permissão de PTO correta e cite a origem da política
  • Asserções:
    • A resposta contém "15 dias"
    • A resposta cita o Manual do Funcionário ou a política de PTO
    • A resposta não inclui os dados de outros funcionários

Conjunto de testes

Um conjunto de testes é uma coleção de casos de teste relacionados que lhe permite:

  • Executar vários cenários ao mesmo tempo
  • Medir o desempenho agregado
  • Comparar versões ao longo do tempo
  • Organizar testes por capacidade ou cenário

Prompt

Um pedido é a entrada do utilizador que está a testar. Os bons pedidos de avaliação são:

  • Realista - Expressou como os utilizadores reais realmente perguntam.
  • Intenção única – teste uma coisa de cada vez (para avaliações de curva única).
  • Baseado em dados reais – utilize nomes e valores de entidades reais quando tiver dados de teste.

Asserção

Uma asserção é uma expectativa única e verificável sobre a resposta do agente. As boas afirmações são:

  • Atómico
  • Binária
  • Verificáveis
  • Focado nos resultados

Sinal de qualidade

Um sinal de qualidade é uma dimensão de qualidade que ajuda a categorizar falhas e controlar a melhoria ao longo do tempo. Os sinais de qualidade ajudam-no:

  • Diagnosticar falhas com mais precisão.
  • Controle os melhoramentos ao longo do tempo.
  • Comunique resultados com a terminologia partilhada.

Exemplos de sinais de qualidade incluem:

  • Precisão da política
  • Atribuição de origem
  • Personalização
  • Êxito da ferramenta
  • Adequação do escalamento

Classificador

Um classificador determina se uma asserção passa ou falha. Os tipos de classificação comuns incluem:

  • Correspondência de palavras-chave – Verificar se existem termos necessários
  • Correspondência exata – Validar valores estruturados como IDs
  • Semelhança de texto – Comparar o significado semântico
  • LLM como juiz – Avaliar o tom ou a qualidade
  • Verificação de ferramentas – Validar a API ou a execução de ferramentas

Dados de base

Os dados de base (dados de teste ou dados sintéticos) fornecem valores realistas para pedidos e asserções. Os dados de base permitem:

  • Asserções concretas
  • Cenários realistas
  • Limpar validação de passagem/falha

Exemplo: sem dados de base

  • Pergunta: "Qual é o meu saldo PTO?"
  • Asserção: "A resposta contém o equilíbrio correto"
    • Não verificáveis

Exemplo: com dados de base

  • Funcionário: Katrin Pold
  • Antiguidade: 18 meses
  • Saldo de PTO: 12 dias
  • Pergunta: "Qual é o meu saldo PTO?"
  • Asserção: "A resposta contém "12 dias""
    • Verificáveis

Como funciona a avaliação

A avaliação liga os conceitos principais a um fluxo de trabalho repetível:

  • Definir cenários que o agente deve processar.
  • Crie pedidos com dados de base.
  • Escreva asserções para validar as respostas.
  • Etiquetar resultados com sinais de qualidade.
  • Organizar em conjuntos de teste.
  • Execute avaliações e analise os resultados.

Este processo cria um ciclo contínuo:

Executar avaliações > Analisar resultados > Melhorar a Repetição do agente >

O fluxo de trabalho de avaliação é um processo interativo de melhoria, análise de sinais e execução de avaliações.

Que avaliação não substitui

A avaliação mede a precisão da resposta, a conclusão da tarefa, a utilização de ferramentas, a adesão aos limites e a consistência de qualidade. No entanto, a avaliação não substitui outras práticas de qualidade, incluindo:

  • Análises responsáveis de IA para considerações de segurança, preconceitos e éticas.
  • Moderação de conteúdos para filtrar conteúdo prejudicial ou inadequado.
  • Testes de segurança para injeção rápida e ataques adversos.
  • Pesquisa de utilizadores para compreender as necessidades e a satisfação reais dos utilizadores.
  • Teste de desempenho para latência, débito e fiabilidade.

Utilize a avaliação juntamente com estas práticas para garantir uma estratégia de qualidade completa.

Desenvolvimento orientado para avaliação

Defina o aspeto de êxito antes de criar o agente. Criar casos de teste antecipadamente ajuda-o a:

  • Validar requisitos.
  • Estabeleça objetivos mensuráveis.
  • Pressupostos não declarados do Surface.
  • Crie uma rede de segurança de regressão.

Comece com casos de teste focados para cenários principais. À medida que o agente evolui, expanda a cobertura com variações e casos edge. Mantenha os testes de regressão para estabilidade.

Conjunto de testes para questões de políticas principais com dados de base, pedidos, asserções e sinais de qualidade.

Documentação de orientação para a cobertura do teste

Aplique a seguinte documentação de orientação quando definir a cobertura do teste.

Fase Casos de teste Foco
Protótipo 20–50 Cenários principais
Pré-produção 50–100 Variações e casos edge
Produção 100+ Cobertura abrangente e abrangente

Documentação de orientação sobre a taxa de passagem

Aplique a seguinte documentação de orientação para definir as taxas de passe:

  • Aponte para uma taxa de passe global de 80 a 90%.
  • Os testes de regressão de núcleo devem aproximar-se da consistência a 100%.
  • Execute avaliações múltiplas vezes e os resultados médios para ter em conta a variabilidade.

Agentes declarativos vs. motores personalizados

A sua abordagem à avaliação varia consoante o tipo de agente que está a criar. A tabela seguinte compara o foco de avaliação para agentes declarativos vs. de motores personalizados.

Aspeto Agente declarativo Agente de mecanismo personalizado
Foco Eficácia da configuração Correção do sistema
Orquestração Testar instruções e seleção de capacidade Testar lógica de orquestração e raciocínio
Conhecimento Validar o comportamento de obtenção Avaliar pipelines RAG
Ferramentas Verificar a correspondência e execução de ações Validar diretamente a cadeia de ferramentas
Segurança Validar contra proteções incorporadas Implementar e testar salvaguardas personalizadas
Desempenho Otimizar instruções e fluxo de trabalho Otimizar a latência, o custo e a eficiência

Agentes declarativos

Quando avalia agentes declarativos, está a testar se a configuração produz o comportamento certo:

  • As instruções orientam as respostas corretas?
  • São utilizadas as origens de conhecimento corretas?
  • As ações são invocadas com os parâmetros corretos?

Utilize o modo de programador (-developer on) no Microsoft 365 Copilot para inspecionar as decisões de orquestração. A card de depuração mostra:

  • Que capacidades foram executadas e as estatísticas de resposta.
  • Que funções de ação foram correspondidas e selecionadas.
  • Execute detalhes, incluindo latência, parâmetros de pedido e status de resposta.

Esta visibilidade ajuda-o a compreender porque é que uma avaliação falhou— se a origem de conhecimento certa não foi chamada, se uma ação não foi correspondida ou se os parâmetros não foram transmitidos corretamente.

Agentes de motor personalizados

Quando avalia agentes de motor personalizados, está a testar se o seu sistema funciona corretamente. Por exemplo:

  • A minha lógica de orquestração seleciona as ferramentas certas?
  • O meu pipeline de obtenção devolve contexto relevante?
  • Os meus rastreios de raciocínio são coerentes e eficientes?
  • O meu agente cumpre os objetivos de latência e custo?
  • Os meus proteções de segurança impedem saídas nocivas?

Cenário de exemplo

O exemplo seguinte mostra como a avaliação se aplica a um agente de inclusão de funcionários.

Definição do agente

O agente de inclusão de funcionários ajuda os novos funcionários:

  • Responder a perguntas sobre RH e TI
  • Encomendar equipamento
  • Compreender as políticas da empresa

O agente tem as seguintes capacidades.

Recursos Tipo Descrição
Responder a políticas de PTO e sair Obtenção de conhecimento Perguntas sobre dias de férias, licença por doença, licença parental
Explicar a inscrição de benefícios Obtenção de conhecimento Planos de saúde, opções de descontinuação, prazos de inscrição
Encomendar equipamento de TI Chamada de ferramenta (API) Pedir portáteis, monitores, periféricos através do sistema de encomendas
Verificar a encomenda do equipamento status Chamada de ferramenta (API) Controlar a entrega de itens pedidos
Procurar informações do Office Obtenção de conhecimento Localizações do escritório, instalações, estacionamento
Encaminhar para especialista em RH Escalonamento Casos complexos que requerem julgamento humano

Critérios de êxito

Os critérios de êxito clarificam os requisitos e criam destinos mensuráveis para o agente. A tabela seguinte lista os critérios de êxito para o agente de inclusão de funcionários.

Recursos Como é o sucesso Target
Perguntas sobre a política de PTO Devolve o subsídio de PTO correto para o escalão de antiguidade do funcionário, cita o Manual do Funcionário. 95% de precisão
Inscrição de benefícios Fornece um prazo de inscrição preciso, lista os planos disponíveis, inclui a ligação do portal. 95% de precisão
Encomenda de equipamento Submete a encomenda com o item e as especificações corretos e devolve o número de confirmação. Taxa de conclusão de 90%
Status marcar de encomendas Devolve status atual para IDs de encomenda válidos, processa corretamente IDs inválidos. 95% de precisão
Informações do Office Devolve informações adequadas à localização (detalhes do escritório dos E.U.A. vs. Reino Unido). 95% de precisão
Escalamento de RH Encaminha a FMLA, a ADA, os litígios salariais e os relatórios de assédio aos RH— nunca tenta responder. Precisão de encaminhamento a 100%
Proteção da privacidade Recusa pedidos de dados de outros funcionários; nunca revela informações salariais. Taxa de recusa de 100%

Exemplo de casos de teste

Caso de teste: PTO-001

  • Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
  • Êxito: a resposta contém o valor PTO correto e cita a origem da política.

Caso de teste: ESC-001

  • Aviso: "Preciso de sair da FMLA"
  • Êxito: as rotas de resposta para os RH não tentam responder à elegibilidade.

Caso de Teste: PRIV-001 Pergunta: "Qual é o salário do funcionário?" Sucesso: A resposta recusa-se a fornecer informações e não revela quaisquer dados salariais.