Descrição geral da avaliação do agente

Para melhorar a qualidade dos agentes declarativos e dos agentes do motor personalizado, crie e execute avaliações de agentes. As avaliações de agentes aplicam-se a quaisquer agentes, independentemente de utilizar Copilot Studio, o SDK de Agentes do Microsoft 365 ou a Biblioteca de IA do Microsoft Teams para criar o seu agente.

Por que motivo a avaliação é importante

Sem avaliação, não pode medir de forma fiável se as alterações ao agente melhoram ou degradam a qualidade. Os desafios comuns incluem:

As alterações são testadas manualmente, sem forma de confirmar que ajudaram.
Os problemas comunicados pelo utilizador não podem ser reproduzidos de forma consistente.
A atualização de origens de conhecimento comporta riscos porque não consegue prever o impacto.
Os intervenientes perguntam se a qualidade melhorou e não pode quantificar a alteração.

A avaliação fornece um ciclo de comentários repetível que aborda cada um destes desafios:

Faça uma alteração. Execute o conjunto de testes. Os resultados mostram exatamente o que melhorou ou regrediu.
Faça a triagem de um relatório de utilizador. Adicione-o como um caso de teste, corrija o problema e mantenha o caso no conjunto de regressão para que permaneça corrigido.
Atualizar origens de conhecimento. Execute avaliações para detetar regressões antes de os utilizadores o fazerem.
Responder a perguntas dos intervenientes com dados. Em vez de "é melhor", pode dizer "A precisão da política passou de 87% para 96%".

A avaliação ajuda-o a compreender o que está a funcionar e o que não está a funcionar e se as alterações melhoram o agente.

Conceitos principais de avaliação

As avaliações consistem nos seguintes conceitos principais:

Caso de teste
Conjunto de testes
Prompt
Asserção
Sinal de qualidade
Classificador
Dados de base

Quando executa uma avaliação:

Cada caso de teste envia o pedido ao agente.
A resposta do agente é verificada em relação a cada asserção com o classificador adequado.
Os resultados são marcados com sinais de qualidade para análise.
As métricas agregadas são calculadas em todo o conjunto de testes.

Caso de teste

Um caso de teste é um cenário de avaliação único que consiste em:

Uma linha de comandos
Comportamento esperado
Asserções

Um caso de teste bem concebido é:

Independente – pode ser executado sem depender de outros testes.
Repetível – produz resultados consistentes de passagem ou falha.
Específico – testa um cenário ou intenção.

Exemplo: Caso de teste PTO-001

Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
Comportamento esperado: devolva a permissão de PTO correta e cite a origem da política
Asserções:
- A resposta contém "15 dias"
- A resposta cita o Manual do Funcionário ou a política de PTO
- A resposta não inclui os dados de outros funcionários

Conjunto de testes

Um conjunto de testes é uma coleção de casos de teste relacionados que lhe permite:

Executar vários cenários ao mesmo tempo
Medir o desempenho agregado
Comparar versões ao longo do tempo
Organizar testes por capacidade ou cenário

Prompt

Um pedido é a entrada do utilizador que está a testar. Os bons pedidos de avaliação são:

Realista - Expressou como os utilizadores reais realmente perguntam.
Intenção única – teste uma coisa de cada vez (para avaliações de curva única).
Baseado em dados reais – utilize nomes e valores de entidades reais quando tiver dados de teste.

Asserção

Uma asserção é uma expectativa única e verificável sobre a resposta do agente. As boas afirmações são:

Atómico
Binária
Verificáveis
Focado nos resultados

Sinal de qualidade

Um sinal de qualidade é uma dimensão de qualidade que ajuda a categorizar falhas e controlar a melhoria ao longo do tempo. Os sinais de qualidade ajudam-no:

Diagnosticar falhas com mais precisão.
Controle os melhoramentos ao longo do tempo.
Comunique resultados com a terminologia partilhada.

Exemplos de sinais de qualidade incluem:

Precisão da política
Atribuição de origem
Personalização
Êxito da ferramenta
Adequação do escalamento

Classificador

Um classificador determina se uma asserção passa ou falha. Os tipos de classificação comuns incluem:

Correspondência de palavras-chave – Verificar se existem termos necessários
Correspondência exata – Validar valores estruturados como IDs
Semelhança de texto – Comparar o significado semântico
LLM como juiz – Avaliar o tom ou a qualidade
Verificação de ferramentas – Validar a API ou a execução de ferramentas

Dados de base

Os dados de base (dados de teste ou dados sintéticos) fornecem valores realistas para pedidos e asserções. Os dados de base permitem:

Asserções concretas
Cenários realistas
Limpar validação de passagem/falha

Exemplo: sem dados de base

Pergunta: "Qual é o meu saldo PTO?"
Asserção: "A resposta contém o equilíbrio correto"
- Não verificáveis

Exemplo: com dados de base

Funcionário: Katrin Pold
Antiguidade: 18 meses
Saldo de PTO: 12 dias
Pergunta: "Qual é o meu saldo PTO?"
Asserção: "A resposta contém "12 dias""
- Verificáveis

Como funciona a avaliação

A avaliação liga os conceitos principais a um fluxo de trabalho repetível:

Definir cenários que o agente deve processar.
Crie pedidos com dados de base.
Escreva asserções para validar as respostas.
Etiquetar resultados com sinais de qualidade.
Organizar em conjuntos de teste.
Execute avaliações e analise os resultados.

Este processo cria um ciclo contínuo:

Executar avaliações > Analisar resultados > Melhorar a Repetição do agente >

Que avaliação não substitui

A avaliação mede a precisão da resposta, a conclusão da tarefa, a utilização de ferramentas, a adesão aos limites e a consistência de qualidade. No entanto, a avaliação não substitui outras práticas de qualidade, incluindo:

Análises responsáveis de IA para considerações de segurança, preconceitos e éticas.
Moderação de conteúdos para filtrar conteúdo prejudicial ou inadequado.
Testes de segurança para injeção rápida e ataques adversos.
Pesquisa de utilizadores para compreender as necessidades e a satisfação reais dos utilizadores.
Teste de desempenho para latência, débito e fiabilidade.

Utilize a avaliação juntamente com estas práticas para garantir uma estratégia de qualidade completa.

Desenvolvimento orientado para avaliação

Defina o aspeto de êxito antes de criar o agente. Criar casos de teste antecipadamente ajuda-o a:

Validar requisitos.
Estabeleça objetivos mensuráveis.
Pressupostos não declarados do Surface.
Crie uma rede de segurança de regressão.

Comece com casos de teste focados para cenários principais. À medida que o agente evolui, expanda a cobertura com variações e casos edge. Mantenha os testes de regressão para estabilidade.

Documentação de orientação para a cobertura do teste

Aplique a seguinte documentação de orientação quando definir a cobertura do teste.

Fase	Casos de teste	Foco
Protótipo	20–50	Cenários principais
Pré-produção	50–100	Variações e casos edge
Produção	100+	Cobertura abrangente e abrangente

Documentação de orientação sobre a taxa de passagem

Aplique a seguinte documentação de orientação para definir as taxas de passe:

Aponte para uma taxa de passe global de 80 a 90%.
Os testes de regressão de núcleo devem aproximar-se da consistência a 100%.
Execute avaliações múltiplas vezes e os resultados médios para ter em conta a variabilidade.

Agentes declarativos vs. motores personalizados

A sua abordagem à avaliação varia consoante o tipo de agente que está a criar. A tabela seguinte compara o foco de avaliação para agentes declarativos vs. de motores personalizados.

Aspeto	Agente declarativo	Agente de mecanismo personalizado
Foco	Eficácia da configuração	Correção do sistema
Orquestração	Testar instruções e seleção de capacidade	Testar lógica de orquestração e raciocínio
Conhecimento	Validar o comportamento de obtenção	Avaliar pipelines RAG
Ferramentas	Verificar a correspondência e execução de ações	Validar diretamente a cadeia de ferramentas
Segurança	Validar contra proteções incorporadas	Implementar e testar salvaguardas personalizadas
Desempenho	Otimizar instruções e fluxo de trabalho	Otimizar a latência, o custo e a eficiência

Agentes declarativos

Quando avalia agentes declarativos, está a testar se a configuração produz o comportamento certo:

As instruções orientam as respostas corretas?
São utilizadas as origens de conhecimento corretas?
As ações são invocadas com os parâmetros corretos?

Utilize o modo de programador (-developer on) no Microsoft 365 Copilot para inspecionar as decisões de orquestração. A card de depuração mostra:

Que capacidades foram executadas e as estatísticas de resposta.
Que funções de ação foram correspondidas e selecionadas.
Execute detalhes, incluindo latência, parâmetros de pedido e status de resposta.

Esta visibilidade ajuda-o a compreender porque é que uma avaliação falhou— se a origem de conhecimento certa não foi chamada, se uma ação não foi correspondida ou se os parâmetros não foram transmitidos corretamente.

Agentes de motor personalizados

Quando avalia agentes de motor personalizados, está a testar se o seu sistema funciona corretamente. Por exemplo:

A minha lógica de orquestração seleciona as ferramentas certas?
O meu pipeline de obtenção devolve contexto relevante?
Os meus rastreios de raciocínio são coerentes e eficientes?
O meu agente cumpre os objetivos de latência e custo?
Os meus proteções de segurança impedem saídas nocivas?

Cenário de exemplo

O exemplo seguinte mostra como a avaliação se aplica a um agente de inclusão de funcionários.

Definição do agente

O agente de inclusão de funcionários ajuda os novos funcionários:

Responder a perguntas sobre RH e TI
Encomendar equipamento
Compreender as políticas da empresa

O agente tem as seguintes capacidades.

Recursos	Tipo	Descrição
Responder a políticas de PTO e sair	Obtenção de conhecimento	Perguntas sobre dias de férias, licença por doença, licença parental
Explicar a inscrição de benefícios	Obtenção de conhecimento	Planos de saúde, opções de descontinuação, prazos de inscrição
Encomendar equipamento de TI	Chamada de ferramenta (API)	Pedir portáteis, monitores, periféricos através do sistema de encomendas
Verificar a encomenda do equipamento status	Chamada de ferramenta (API)	Controlar a entrega de itens pedidos
Procurar informações do Office	Obtenção de conhecimento	Localizações do escritório, instalações, estacionamento
Encaminhar para especialista em RH	Escalonamento	Casos complexos que requerem julgamento humano

Critérios de êxito

Os critérios de êxito clarificam os requisitos e criam destinos mensuráveis para o agente. A tabela seguinte lista os critérios de êxito para o agente de inclusão de funcionários.

Recursos	Como é o sucesso	Target
Perguntas sobre a política de PTO	Devolve o subsídio de PTO correto para o escalão de antiguidade do funcionário, cita o Manual do Funcionário.	95% de precisão
Inscrição de benefícios	Fornece um prazo de inscrição preciso, lista os planos disponíveis, inclui a ligação do portal.	95% de precisão
Encomenda de equipamento	Submete a encomenda com o item e as especificações corretos e devolve o número de confirmação.	Taxa de conclusão de 90%
Status marcar de encomendas	Devolve status atual para IDs de encomenda válidos, processa corretamente IDs inválidos.	95% de precisão
Informações do Office	Devolve informações adequadas à localização (detalhes do escritório dos E.U.A. vs. Reino Unido).	95% de precisão
Escalamento de RH	Encaminha a FMLA, a ADA, os litígios salariais e os relatórios de assédio aos RH— nunca tenta responder.	Precisão de encaminhamento a 100%
Proteção da privacidade	Recusa pedidos de dados de outros funcionários; nunca revela informações salariais.	Taxa de recusa de 100%

Exemplo de casos de teste

Caso de teste: PTO-001

Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
Êxito: a resposta contém o valor PTO correto e cita a origem da política.

Caso de teste: ESC-001

Aviso: "Preciso de sair da FMLA"
Êxito: as rotas de resposta para os RH não tentam responder à elegibilidade.

Caso de Teste: PRIV-001 Pergunta: "Qual é o salário do funcionário?" Sucesso: A resposta recusa-se a fornecer informações e não revela quaisquer dados salariais.

Comentários

Esta página foi útil?

Last updated on 2026-04-29