Automatizar testes com avaliação de agentes

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

À medida que os agentes de IA assumem papéis críticos nos processos de negócio, a necessidade de testes fiáveis e repetíveis torna-se essencial. A avaliação de agentes permite-lhe gerar testes que simulam cenários do mundo real para o seu agente. Estes testes abrangem mais perguntas mais rapidamente do que os testes manuais, caso a caso. Depois, pode medir a precisão, relevância e qualidade das respostas às perguntas que o agente recebe, com base na informação a que o agente pode aceder. Ao utilizar os resultados do conjunto de testes, pode otimizar o comportamento do seu agente e validar que cumpre os requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de visualização do Microsoft Copilot Studio e está sujeito a alterações.

As funcionalidades de pré-visualização não se destinam a utilização em produção e podem ter funcionalidades restritas. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer feedback.

Se você estiver criando um agente pronto para produção, consulte Visão geral do Microsoft Copilot Studio.

Porque usar testes automatizados?

A avaliação de agentes proporciona testes automatizados e estruturados. Ajuda a detetar problemas precocemente, reduz o risco de más respostas e mantém a qualidade à medida que o agente evolui. Este processo traz uma forma automatizada e repetível de garantia de qualidade para os testes de agentes. Garante que o agente cumpre os padrões de precisão e fiabilidade do seu negócio e oferece transparência sobre o seu desempenho. Tem pontos fortes diferentes de testar através do chat de teste.

A avaliação do agente mede a correção e o desempenho, não a ética da IA ou problemas de segurança. Um agente pode passar em todos os testes de avaliação, mas ainda assim, por exemplo, produzir uma resposta inadequada a uma pergunta. Os clientes devem continuar a usar avaliações responsáveis por IA e filtros de segurança de conteúdo; As avaliações não substituem essas avaliações e filtros.

Como funciona a avaliação de agentes

O Copilot Studio utiliza um caso de teste para cada avaliação de agente. Um caso de teste é uma única mensagem ou pergunta que simula o que um utilizador perguntaria ao seu agente. Um caso de teste pode também incluir a resposta que espera que o seu agente responda. Por exemplo:

A questão: Qual é o seu horário de trabalho?
A resposta esperada: Estamos abertos das 9h às 17h, de segunda a sexta-feira.

Ao usar a avaliação do agente, pode gerar, importar ou escrever manualmente um grupo de casos de teste. Este grupo de casos de teste chama-se conjunto de teste. Um conjunto de teste permite-lhe:

Execute vários casos de teste que abrangam uma vasta gama de capacidades ao mesmo tempo, em vez de fazer uma pergunta ao seu agente de cada vez.
Analise o desempenho do seu agente com uma pontuação agregada fácil de digerir e também concentre-se em casos de teste individuais.
Teste as alterações aos seus agentes usando o mesmo conjunto de testes, para ter um padrão objetivo para medir e comparar alterações no desempenho.
Crie rapidamente novos conjuntos de teste ou modifique os existentes para cobrir as capacidades ou requisitos do agente em mudança.

O conjunto de testes inclui também os métodos de teste que pretende usar. Pode medir o desempenho do seu agente com base em:

Correspondência exata ou correspondência por palavras-chave: Quão próxima é a resposta do seu agente a uma pergunta que espera.
Semelhança semântica: Quão próxima é a resposta do seu agente com a ideia ou intenção da sua resposta esperada.
Qualidade: O desempenho das respostas do seu agente através de uma avaliação baseada em LLM.

Também pode escolher um perfil de utilizador para agir como o utilizador que envia as perguntas. O agente pode estar configurado para responder a diferentes utilizadores de formas distintas, ou permitir o acesso a recursos de formas distintas.

Quando seleciona um conjunto de teste e executa uma avaliação do agente, o Copilot Studio envia as perguntas dos casos de teste, regista as respostas do agente, compara essas respostas com as respostas esperadas ou com um padrão de qualidade, e atribui uma pontuação a cada caso de teste. Também pode ver os detalhes, a transcrição e o mapa de atividades de cada caso de teste e quais os recursos que o seu agente utilizou para criar a resposta.

Chat de teste versus avaliação do agente

Cada método de teste dá-lhe diferentes perspetivas sobre as qualidades e o comportamento do seu agente:

Chat de teste:

Recebe e responde a uma pergunta de cada vez. É difícil repetir os mesmos testes várias vezes.
Permite testar uma sessão completa contendo múltiplas mensagens.
Permite-lhe interagir com o seu agente como utilizador através de uma interface de chat.

Avaliação do agente:

Pode criar e executar múltiplos casos de teste ao mesmo tempo. Podes repetir testes usando o mesmo conjunto de testes.
Só é possível testar uma pergunta e uma resposta por caso de teste. Não testa uma sessão de conversa completa.
Escolha diferentes perfis de utilizador para simular diferentes utilizadores sem precisar de completar as interações você mesmo.

Quando testar um agente, use tanto o chat de teste como a avaliação do agente para ter uma visão completa do seu agente.

Feedback

Esta página foi útil?

Last updated on 2026-01-15