Compartilhar via


Escolha métodos de avaliação

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

No Copilot Studio, você pode criar um conjunto de casos de teste para avaliar o desempenho dos seus agentes. Os casos de teste permitem que você simule cenários reais para seu agente, para que você possa medir a precisão, a relevância e a qualidade das respostas às perguntas que o agente é feito, com base nas informações que o agente pode acessar. Utilizando os resultados do conjunto de testes, você pode otimizar o comportamento do seu agente e validar que ele atende aos requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de versão prévia do Microsoft Copilot Studio e está sujeito a alterações.

Os recursos de visualização não são destinados ao uso de produção e podem ter funcionalidade restrita. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer comentários.

Se você estiver criando um agente pronto para produção, confira a visão geral do Microsoft Copilot Studio.

Métodos de teste

Ao criar conjuntos de teste, você pode escolher entre diferentes métodos para avaliar as respostas do seu agente: correspondência de texto, similaridade e qualidade. Cada método de teste tem seus próprios pontos fortes e é adequado para diferentes tipos de avaliações.

Métodos de teste de correspondência de texto

Os métodos de teste de correspondência de texto comparam as respostas do agente às respostas esperadas que você define no conjunto de testes. Há dois testes de correspondência:

A correspondência exata verifica se a resposta do agente corresponde exatamente à resposta esperada no teste: caractere para caractere, palavra por palavra. Se for a mesma coisa, passa. Se alguma coisa for diferente, ela falhará. A correspondência exata é útil para respostas curtas e precisas, como, por exemplo, números, códigos ou frases fixas. Ela não se adequa às respostas que as pessoas podem expressar de várias maneiras corretas.

A correspondência parcial verifica se a resposta do agente contém algumas das palavras ou frases da resposta esperada que você definiu. Se isso acontecer, ela é considerada correta. Se não fizer isso, falhará. A correspondência parcial é útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas termos-chave ou ideias ainda precisam ser incluídos na resposta.

Métodos de teste de similaridade

O método de teste de similaridade compara a similaridade das respostas do agente com as respostas esperadas definidas no conjunto de testes. É útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas o significado geral ou a intenção ainda precisa ser considerada correta.

Ele utiliza uma métrica de similaridade cosseno para avaliar o nível de semelhança entre a resposta do agente e a formulação e o significado da resposta esperada, determinando assim uma pontuação. A pontuação varia entre 0 e 1, onde 1 indica que a resposta corresponde de maneira mais próxima e 0 indica que não. Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta.

Métodos de teste de qualidade

Os métodos de teste de qualidade ajudam você a decidir se as respostas do agente atendem aos seus padrões. Essa abordagem garante que os resultados sejam confiáveis e fáceis de explicar.

Esses métodos usam um LLM (modelo de linguagem grande) para avaliar a eficiência com que um agente responde às perguntas do usuário. Eles são muito úteis quando não há uma resposta exata esperada, oferecendo uma maneira flexível e escalonável de avaliar respostas com base nos documentos recuperados e no fluxo de conversa.

Os métodos de teste de qualidade incluem dois métodos de teste:

A qualidade geral avalia as respostas do agente. Ele utiliza esses critérios-chave e aplica um prompt consistente para orientar a pontuação:

  • Relevância: até que ponto a resposta do agente aborda a questão. Por exemplo, a resposta do agente permanece no assunto e responde diretamente à pergunta?

  • Fundamentação: até que ponto a resposta do agente se baseia no contexto fornecido. Por exemplo, a referência de resposta do agente depende de informações fornecidas no contexto, em vez de introduzir informações não relacionadas ou sem suporte?

  • Integridade: até que ponto a resposta do agente fornece todas as informações necessárias. Por exemplo, a resposta do agente abrange todos os aspectos da pergunta e fornece detalhes suficientes?

  • Abstenção: se o agente tentou responder à pergunta.

Para ser considerada de alta qualidade, uma resposta deve atender a todos esses critérios-chave. Se um critério não for atendido, a resposta é sinalizada para melhoria. Esse método de pontuação garante que somente as respostas completas e bem suportadas recebam as principais notas. Por outro lado, as respostas incompletas ou sem evidência de suporte recebem pontuações mais baixas.

Comparar significado avalia o quanto a resposta do agente reflete o significado pretendido da resposta esperada. Em vez de focar na redação exata, ele usa a similaridade de intenção, ou seja, compara as ideias e o significado por trás das palavras, para julgar o quão próxima a resposta se alinha com o esperado.

Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta. A nota padrão para aprovação é 50. O método de teste de comparação de significado é útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas o significado geral ou a intenção ainda precisa ser considerada correta.

Limites e taxas de aprovação

O sucesso de um caso de teste depende do método de teste selecionado e do limite definido para pontuações de aprovação.

Cada método de teste, exceto correspondência exata, produz uma pontuação numérica com base em um conjunto de critérios de avaliação que reflete o nível em que a resposta do agente atende a esses critérios. O limite é a pontuação de corte que separa a aprovação da falha. Você pode definir as pontuações de aprovação para similaridade e comparar casos de teste de significado.

Correspondência exata é um método de teste restrito que não produz uma pontuação numérica; a resposta deve corresponder exatamente para ser aprovada. Ao escolher o limite para um caso de teste, você decide o quanto rigorosa ou flexível é a avaliação. Cada método de teste avalia a resposta do agente de forma diferente, portanto, é importante escolher aquele que melhor se ajusta aos critérios de avaliação.