Partilhar via


Automatizar testes com avaliação de agentes

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

À medida que os agentes de IA assumem papéis críticos nos processos de negócio, a necessidade de testes fiáveis e repetíveis torna-se essencial. A avaliação de agentes permite-lhe gerar testes que simulam cenários do mundo real para o seu agente. Estes testes abrangem mais perguntas mais rapidamente do que os testes manuais, caso a caso. Depois, pode medir a precisão, relevância e qualidade das respostas às perguntas que o agente recebe, com base na informação a que o agente pode aceder. Ao utilizar os resultados do conjunto de testes, pode otimizar o comportamento do seu agente e validar que cumpre os requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de visualização do Microsoft Copilot Studio e está sujeito a alterações.

As funcionalidades de pré-visualização não se destinam a utilização em produção e podem ter funcionalidades restritas. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer feedback.

Se você estiver criando um agente pronto para produção, consulte Visão geral do Microsoft Copilot Studio.

Porque usar testes automatizados?

A avaliação de agentes proporciona testes automatizados e estruturados. Ajuda a detetar problemas precocemente, reduz o risco de más respostas e mantém a qualidade à medida que o agente evolui. Este processo traz uma forma automatizada e repetível de garantia de qualidade para os testes de agentes. Garante que o agente cumpre os padrões de precisão e fiabilidade do seu negócio e oferece transparência sobre o seu desempenho. Tem pontos fortes diferentes de testar através do chat de teste.

A avaliação do agente mede a correção e o desempenho, não a ética da IA ou problemas de segurança. Um agente pode passar em todos os testes de avaliação, mas ainda assim, por exemplo, produzir uma resposta inadequada a uma pergunta. Os clientes devem continuar a usar avaliações responsáveis por IA e filtros de segurança de conteúdo; As avaliações não substituem essas avaliações e filtros.

Como funciona a avaliação de agentes

O Copilot Studio utiliza um caso de teste para cada avaliação de agente. Um caso de teste é uma única mensagem ou pergunta que simula o que um utilizador perguntaria ao seu agente. Um caso de teste pode também incluir a resposta que espera que o seu agente responda. Por exemplo:

  • A questão: Qual é o seu horário de trabalho?

  • A resposta esperada: Estamos abertos das 9h às 17h, de segunda a sexta-feira.

Ao usar a avaliação do agente, pode gerar, importar ou escrever manualmente um grupo de casos de teste. Este grupo de casos de teste chama-se conjunto de teste. Um conjunto de teste permite-lhe:

  • Execute vários casos de teste que abrangam uma vasta gama de capacidades ao mesmo tempo, em vez de fazer uma pergunta ao seu agente de cada vez.

  • Analise o desempenho do seu agente com uma pontuação agregada fácil de digerir e também concentre-se em casos de teste individuais.

  • Teste as alterações aos seus agentes usando o mesmo conjunto de testes, para ter um padrão objetivo para medir e comparar alterações no desempenho.

  • Crie rapidamente novos conjuntos de teste ou modifique os existentes para cobrir as capacidades ou requisitos do agente em mudança.

O conjunto de testes inclui também os métodos de teste que pretende usar. Pode medir o desempenho do seu agente com base em:

Também pode escolher um perfil de utilizador para agir como o utilizador que envia as perguntas. O agente pode estar configurado para responder a diferentes utilizadores de formas distintas, ou permitir o acesso a recursos de formas distintas.

Quando seleciona um conjunto de teste e executa uma avaliação do agente, o Copilot Studio envia as perguntas dos casos de teste, regista as respostas do agente, compara essas respostas com as respostas esperadas ou com um padrão de qualidade, e atribui uma pontuação a cada caso de teste. Também pode ver os detalhes, a transcrição e o mapa de atividades de cada caso de teste e quais os recursos que o seu agente utilizou para criar a resposta.

Chat de teste versus avaliação do agente

Cada método de teste dá-lhe diferentes perspetivas sobre as qualidades e o comportamento do seu agente:

Chat de teste:

  • Recebe e responde a uma pergunta de cada vez. É difícil repetir os mesmos testes várias vezes.

  • Permite testar uma sessão completa contendo múltiplas mensagens.

  • Permite-lhe interagir com o seu agente como utilizador através de uma interface de chat.

Avaliação do agente:

  • Pode criar e executar múltiplos casos de teste ao mesmo tempo. Podes repetir testes usando o mesmo conjunto de testes.

  • Só é possível testar uma pergunta e uma resposta por caso de teste. Não testa uma sessão de conversa completa.

  • Escolha diferentes perfis de utilizador para simular diferentes utilizadores sem precisar de completar as interações você mesmo.

Quando testar um agente, use tanto o chat de teste como a avaliação do agente para ter uma visão completa do seu agente.