Compartilhar via


Executar testes com conversas de múltiplos turnos

A avaliação de conversa permite avaliar o comportamento geral do agente em uma interação mais longa. Ele reflete como os usuários reais interagem com agentes, em que cada resposta depende do contexto anterior em uma conversa contínua. Você pode usar essas avaliações para determinar se um agente pode manter o contexto, solicitar esclarecimentos e concluir tarefas de várias etapas.

Você também pode executar avaliações de resposta única, que são boas para quando você deseja testar seu agente sobre como ele responde a perguntas específicas, sobre quais recursos ele chama e na redação exata que ele usa em suas respostas.

As avaliações usam conjuntos de teste. Um conjunto de testes para avaliações conversacionais consiste em um grupo de até 20 casos de teste. Quando você executa uma avaliação de agente, você seleciona um conjunto de teste e o Copilot Studio executa todos os casos de teste desse conjunto contra seu agente.

Você pode criar casos de teste em um conjunto de testes importando-os usando uma planilha ou usando IA para gerar mensagens com base no design e nos recursos do agente. Você pode então escolher como quer medir a qualidade das respostas do seu agente para cada caso de teste dentro de um conjunto de testes.

Para mais informações sobre como funciona a avaliação de agentes, veja Sobre avaliação de agentes.

Para aprender a editar um conjunto de teste existente, veja Alterar os detalhes de um conjunto de teste.

Importante

Os resultados do teste estão disponíveis no Copilot Studio por 89 dias. Para salvar os resultados dos seus testes por um período mais longo, exporte os resultados para um arquivo CSV.

Criar um conjunto de testes de conversação

  1. Acesse a página de Avaliação do seu agente.

Captura de tela mostrando como selecionar a aba Avaliação quando a seleção de aba está comprimida devido ao tamanho da tela.

  1. Selecione Nova avaliação e, em seguida, selecione Conversa.

    Captura de tela mostrando a opção de conversa selecionada para criar conjuntos de testes.

  2. Você pode criar casos de teste de vários turnos usando qualquer um dos seguintes métodos:

    • Conjunto de conversa rápida: gere automaticamente 10 conversas curtas com base na descrição, instruções e funcionalidades do agente.

    • Conjunto de conversas completo: gerar conversas usando o conhecimento do agente ou tópicos definidos. Nesta opção, você pode selecionar a criação de conversas curtas ou longas.

    • Use seu chat de teste: converta o chat de teste mais recente em um caso de teste.

Observação

O teste de conversa define o suporte para até 20 casos de teste. Cada caso de teste dá suporte a até 12 mensagens totais, que são 6 pares de perguntas e respostas.

  1. Em Nome, digite um nome para o conjunto de testes.

  2. Altere ou adicione os métodos de teste que você deseja usar. Para conjuntos de teste de conversa, você pode adicionar a Qualidade Geral, Correspondência de Palavra-chave, Correspondência de Capacidades ou os métodos de teste personalizados de Classificação.

    • Adicione um novo método:
      1. Selecione Adicionar método de teste.
      2. Selecione todos os métodos que deseja testar e depois selecione OK. Você pode adicionar vários métodos.
      3. Para alguns métodos, defina uma nota de aprovação e selecione OK. A nota de aprovação determina qual nota resulta em aprovação ou reprovação.
      4. Alguns métodos exigem adicionar respostas esperadas ou palavras-chave para cada um dos seus casos de teste. Para mais informações, veja Escolher métodos de avaliação.
    • Selecione um método de teste existente para editar ou excluir.
    Método de teste Medidas Tipo de conjunto de testes Pontuação Configurações
    Qualidade geral Quão boa é a resposta de um caso de teste com base em qualidades específicas Resposta única ou conversa Avaliado em uma escala de 0 a 100% Nenhum
    Comparar significado Quão bem o significado da resposta do caso de teste corresponde à resposta esperada Resposta única Avaliado em uma escala de 0 a 100% Pontuação de aprovação, resposta esperada
    Uso de capacidades Se o caso de teste usou todos ou quaisquer recursos esperados Resposta única Aprovado/reprovado Capacidades esperadas
    Correspondência de palavras-chave Se o caso de teste usou todas ou algumas das palavras-chave ou frases esperadas Resposta única ou conversa Aprovado/reprovado Palavras-chave ou frases esperadas
    Similaridade de texto Quão bem o texto da resposta do caso de teste corresponde à resposta esperada Resposta única Avaliado em uma escala de 0 a 100% Pontuação de aprovação, resposta esperada
    Correspondência exata Se a resposta do caso de teste corresponde exatamente à resposta esperada Resposta única Aprovado/reprovado Resposta esperada
  3. Edite os detalhes dos casos de teste. Todos os métodos de teste, exceto a qualidade geral, exigem respostas ou palavras-chave esperadas. Para obter mais informações sobre como editar casos de teste, consulte Modificar um conjunto de testes.

  4. Selecione o perfil de usuário, depois selecione ou adicione a conta que deseja usar para esse conjunto de testes, ou continue sem autenticação. A avaliação utiliza essa conta para se conectar a fontes de conhecimento e ferramentas durante os testes. Para informações sobre como adicionar e gerenciar perfis de usuário, veja Gerenciar perfis e conexões de usuários.

Observação

Testes automatizados utilizam a autenticação da conta de teste selecionada. Se seu agente possui fontes de conhecimento ou conexões que exigem autenticação específica, selecione a conta apropriada para seu teste.

  1. Edite ou crie mais casos de teste. Saiba mais em Editar casos de teste em um conjunto de testes.

  2. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.