Automatizar testes com avaliação de agentes

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

À medida que agentes de IA assumem papéis críticos nos processos de negócios, a necessidade de testes confiáveis e repetíveis torna-se essencial. A avaliação de agentes permite que você gere testes que simulam cenários do mundo real para seu agente. Esses testes cobrem mais perguntas mais rapidamente do que os testes manuais, caso a caso. Depois, você pode medir a precisão, relevância e qualidade das respostas às perguntas que o agente recebe, com base nas informações acessadas. Utilizando os resultados do conjunto de testes, você pode otimizar o comportamento do seu agente e validar que ele atende aos requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de versão prévia do Microsoft Copilot Studio e está sujeito a alterações.

Os recursos de visualização não são destinados ao uso de produção e podem ter funcionalidade restrita. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer comentários.

Se você estiver criando um agente pronto para produção, confira a visão geral do Microsoft Copilot Studio.

Por que usar testes automatizados?

A avaliação de agentes oferece testes automatizados e estruturados. Ele ajuda a identificar problemas cedo, reduz o risco de respostas erradas e mantém a qualidade à medida que o agente evolui. Esse processo traz uma forma automatizada e repetível de garantia de qualidade para os testes de agentes. Ele garante que o agente atenda aos padrões de precisão e confiabilidade do seu negócio e oferece transparência sobre seu desempenho. Ele tem pontos fortes diferentes do teste usando o chat de teste.

A avaliação do agente mede correção e desempenho, não a ética ou problemas de segurança da IA. Um agente pode passar em todos os testes de avaliação, mas ainda assim, por exemplo, produzir uma resposta inadequada para uma pergunta. Os clientes ainda devem usar avaliações responsáveis por IA e filtros de segurança de conteúdo; Avaliações não substituem essas avaliações e filtros.

Como funciona a avaliação de agentes

O Copilot Studio utiliza um caso de teste para cada avaliação de agente. Um caso de teste é uma única mensagem ou pergunta que simula o que um usuário perguntaria ao seu agente. Um caso de teste também pode incluir a resposta que você espera que seu agente responda. Por exemplo:

A pergunta: Qual é o seu horário de expediente?
A resposta esperada: Estamos abertos das 9h às 17h de segunda a sexta-feira.

Usando a avaliação de agentes, você pode gerar, importar ou escrever manualmente um grupo de casos de teste. Esse grupo de casos de teste é chamado de conjunto de teste. Um conjunto de teste permite que você:

Execute múltiplos casos de teste que abrangam uma ampla gama de capacidades ao mesmo tempo, em vez de fazer uma pergunta de cada vez ao seu agente.
Analise o desempenho do seu agente com uma pontuação agregada fácil de digerir e também dê um zoom em casos de teste individuais.
Teste as mudanças nos seus agentes usando o mesmo conjunto de testes, assim você tem um padrão objetivo para medir e comparar mudanças no desempenho.
Crie rapidamente novos conjuntos de teste ou modifique os existentes para cobrir as mudanças nas capacidades ou requisitos do agente.

O conjunto de testes também inclui os métodos de teste que você deseja usar. Você pode medir o desempenho do seu agente com base em:

Correspondência exata ou correspondência por palavra-chave: Quão próxima a resposta do seu agente a uma pergunta corresponde à sua resposta esperada.
Semelhança semântica: Quão próxima a resposta do seu agente corresponde à ideia ou intenção da sua resposta esperada.
Qualidade: Quão bem as respostas do seu agente se desempenham por meio de uma avaliação baseada em LLM.

Você também pode escolher um perfil de usuário para agir como o usuário que envia as perguntas. O agente pode ser configurado para responder a diferentes usuários de maneiras distintas, ou permitir acesso aos recursos de maneiras distintas.

Quando você seleciona um conjunto de teste e executa uma avaliação do agente, o Copilot Studio envia as perguntas dos casos de teste, registra as respostas do agente, compara essas respostas com as respostas esperadas ou com um padrão de qualidade e atribui uma pontuação a cada caso de teste. Você também pode ver os detalhes, a transcrição e o mapa de atividades de cada caso de teste e quais recursos seu agente usou para criar a resposta.

Chat de teste versus avaliação de agente

Cada método de teste oferece diferentes percepções sobre as qualidades e o comportamento do seu corretor:

Chat de teste:

Recebe e responde a uma pergunta de cada vez. É difícil repetir os mesmos testes várias vezes.
Permite testar uma sessão completa contendo múltiplas mensagens.
Permite que você interaja com seu agente como usuário usando uma interface de chat.

Avaliação do agente:

Pode criar e rodar múltiplos casos de teste ao mesmo tempo. Você pode repetir testes usando o mesmo conjunto de testes.
Só dá para testar uma pergunta e uma resposta por caso de teste. Não testa uma conversa completa.
Escolha perfis de usuário diferentes para simular usuários diferentes sem precisar completar as interações você mesmo.

Quando você testar um agente, use tanto o chat de teste quanto a avaliação do agente para ter uma visão completa do seu agente.

Comentários

Esta página foi útil?

Last updated on 2026-01-15