Compartilhar via


Crie ou modifique um conjunto de testes para avaliar seu agente

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

Um conjunto de teste consiste em um grupo de até 100 casos de teste. Quando você executa uma avaliação de agente, você seleciona um conjunto de teste e o Copilot Studio executa todos os casos de teste desse conjunto contra seu agente.

Você pode criar casos de teste dentro de um conjunto de testes manualmente, importá-los usando uma planilha ou usar IA para gerar mensagens baseadas no design e nos recursos do seu agente. Você pode então escolher como quer medir a qualidade das respostas do seu agente para cada caso de teste dentro de um conjunto de testes.

Para mais informações sobre como funciona a avaliação de agentes, veja Sobre avaliação de agentes.

Para aprender a editar um conjunto de teste existente, veja Alterar os detalhes de um conjunto de teste.

Importante

Os resultados dos testes estão disponíveis no Copilot Studio por 89 dias. Para salvar os resultados dos seus testes por um período mais longo, exporte os resultados para um arquivo CSV.

Criar um novo conjunto de testes

  1. Acesse a página de Avaliação do seu agente.

Captura de tela mostrando como selecionar a aba Avaliação quando a seleção de aba está comprimida devido ao tamanho da tela.

  1. Selecione Nova avaliação.

    Captura de tela mostrando o botão Criar novo teste na página de Avaliação.

  2. Na página de Nova avaliação , escolha o método que deseja usar para criar seu conjunto de testes. Um conjunto de teste pode ter até 100 casos de teste.

    • Pergunta rápida configurada para que o Copilot Studio crie casos de teste automaticamente com base na descrição, instruções e capacidades do seu agente. Essa opção gera 10 perguntas para realizar avaliações pequenas e rápidas ou para começar a construir um conjunto de testes maior.
    • Conjunto completo de perguntas para que o Copilot Studio gere casos de teste usando as fontes de conhecimento ou tópicos do seu agente e escolha o número de perguntas a gerar.
    • Use a conversa do chat do teste para preencher automaticamente o conjunto de perguntas que você forneceu no chat do teste. Esse método utiliza perguntas do chat de teste mais recente. Você também pode iniciar uma avaliação pelo chat de teste usando o botão de avaliação . Captura de tela mostrando o botão Criar novo teste no chat de teste.
    • Importe casos de teste de um arquivo arrastando seu arquivo para a área designada, selecionando Navegar para enviar um arquivo ou selecionando uma das outras opções de upload.
    • Ou, escreva algumas perguntas você mesmo para criar manualmente um conjunto de testes. Siga os passos para editar um conjunto de testes para adicionar e editar casos de teste.
    • Use dados de produção baseados em temas das análises do seu agente. Captura de tela mostrando a opção Avaliar para um tema na lista de Temas de um tema.
  3. Edite os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, veja Modificar um conjunto de teste.

  4. Em Nome, insira um nome para o conjunto de testes.

  5. Altere ou adicione os métodos de teste que você deseja usar:

    • Adicione um novo método:
      1. Selecione Adicionar método de teste.
      2. Selecione todos os métodos que deseja testar e depois selecione OK. Você pode adicionar vários métodos.
      3. Para alguns métodos, defina uma nota de aprovação e selecione OK. A nota de aprovação determina qual nota resulta em aprovação ou reprovação.
      4. Alguns métodos exigem adicionar respostas esperadas ou palavras-chave para cada um dos seus casos de teste. Para mais informações, veja Escolher métodos de avaliação.
    • Selecione um método de teste existente para editar ou excluir.
    Método de teste Medidas Pontuação Configurações
    Qualidade geral Quão boa é a resposta do caso de teste baseada em qualidades específicas Pontuou em 100% None
    Comparar significado Quão bem o significado da resposta do caso de teste corresponde à resposta esperada Pontuou em 100% Nota de aprovação, resposta esperada
    Uso de capacidades Se o caso de teste utilizou os recursos esperados Aprovado/reprovado Capacidades esperadas
    Correspondência de palavras-chave Se o caso de teste usou todas ou algumas das palavras-chave ou frases esperadas Aprovado/reprovado Palavras-chave ou frases esperadas
    Similaridade de texto Quão bem o texto da resposta do caso de teste corresponde à resposta esperada Pontuou em 100% Nota de aprovação, resposta esperada
    Correspondência exata Se a resposta do caso de teste corresponde exatamente à resposta esperada Aprovado/reprovado Resposta esperada
  6. Selecione o perfil de usuário e, em seguida, selecione ou adicione a conta que deseja usar para esse conjunto de testes, ou continue sem autenticação. A avaliação utiliza essa conta para se conectar a fontes de conhecimento e ferramentas durante os testes. Para informações sobre como adicionar e gerenciar perfis de usuário, veja Gerenciar perfis e conexões de usuários.

    Observação

    Testes automatizados utilizam a autenticação da conta de teste selecionada. Se seu agente possui fontes de conhecimento ou conexões que exigem autenticação específica, selecione a conta apropriada para seu teste. Quando o Copilot Studio gera casos de teste, ele usa as credenciais de autenticação de uma conta conectada para acessar as fontes de conhecimento e ferramentas do seu agente. Os casos de teste gerados ou resultados podem incluir informações sensíveis às quais a conta conectada tem acesso, e essas informações são visíveis para todos os criadores que podem acessar o conjunto de teste.

  7. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.

Limitação de geração de casos de teste

A geração de casos de teste falha se uma ou mais perguntas violarem as configurações de moderação de conteúdo do seu agente. Possíveis motivos incluem:

  • As instruções ou tópicos do agente levam o modelo a gerar conteúdo que o sistema sinaliza.
  • A fonte de conhecimento conectada inclui conteúdo sensível ou restrito.
  • As configurações de moderação de conteúdo do agente são excessivamente rígidas.

Para resolver o problema, tente diferentes ações, como ajustar fontes de conhecimento, atualizar instruções ou modificar configurações de moderação.

Um conjunto de teste pode conter até 100 casos de teste.

Gerar um conjunto de testes a partir de conhecimento ou tópicos

Você pode testar seu agente gerando perguntas usando as informações e fontes de conversa que ele já possui. Esse método de teste é bom para testar como seu agente usa o conhecimento e os tópicos que já possui, mas não é bom para testar lacunas de informação.

Você pode gerar casos de teste usando estas fontes de conhecimento:

  • Texto

  • Microsoft Word

  • Microsoft Excel

Você pode usar arquivos de até 293 KB para gerar questões de prova.

Para gerar um conjunto de teste:

  1. Na avaliação nova, selecione Conjunto completo de questões.

  2. Selecione Conhecimento ou Tópicos.

    • O conhecimento funciona melhor para agentes que usam orquestração generativa. Esse método gera perguntas utilizando uma seleção das fontes de conhecimento do seu agente.
    • Tópicos funciona melhor para agentes que usam orquestração clássica. Esse método gera perguntas usando os temas do seu agente.
  3. Para o Conhecimento, selecione as fontes de conhecimento que deseja incluir na geração da questão.

Captura de tela mostrando a seleção de fontes de conhecimento a serem incluídas na geração do caso de teste.

  1. Para Conhecimento e Tópicos, selecione e arraste o controle deslizante para escolher o número de perguntas a serem geradas.

Captura de tela mostrando o controle deslizante para selecionar quantas perguntas gerar.

  1. Selecione Gerar.

  2. Em Nome, insira um nome para o conjunto de testes.

    1. Altere ou adicione os métodos de teste que você deseja usar:
    • Adicione um novo método:
      1. Selecione Adicionar método de teste.
      2. Selecione todos os métodos que deseja testar e depois selecione OK. Você pode adicionar vários métodos.
      3. Para alguns métodos, defina uma nota de aprovação e selecione OK. A nota de aprovação determina qual nota resulta em aprovação ou reprovação.
      4. Alguns métodos exigem adicionar respostas esperadas ou palavras-chave para cada um dos seus casos de teste. Para mais informações, veja Métodos de avaliação Choose
    • Selecione um método de teste existente para editar ou excluir.
  3. Edite os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, veja Modificar um conjunto de teste.

  4. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.

Crie um arquivo de conjunto de teste para importar

Em vez de criar seus casos de teste diretamente no Copilot Studio, você pode criar um arquivo de planilha com todos os casos de teste e importá-los para criar seu conjunto de testes. Você pode compor cada pergunta de teste, determinar o método de teste que deseja usar e declarar as respostas esperadas para cada pergunta. Quando terminar de criar o arquivo, salve-o como um arquivo .csv ou .txt e importe-o para o Copilot Studio.

Importante

  • O arquivo pode conter até 100 perguntas.
  • Cada pergunta pode ter até 1.000 caracteres, incluindo espaços.
  • O arquivo deve estar em formato de texto ou CSV (valores separados por vírgulas).

Para criar o arquivo de importação:

  1. Abra um aplicativo de planilha (por exemplo, Microsoft Excel).

  2. Adicione os seguintes cabeçalhos, nesta ordem, na primeira linha:

    • Pergunta
    • Resposta esperada
    • Método de teste
  3. Insira suas perguntas de teste na coluna Pergunta. Cada pergunta pode ter 1.000 caracteres ou menos, incluindo espaços.

  4. Insira um dos seguintes métodos de teste para cada pergunta na coluna Método de Teste :

    • Qualidade geral
    • Comparar significado
    • Similaridade
    • Correspondência exata
    • Correspondência de palavras-chave
  5. Insira as respostas esperadas para cada pergunta na coluna Resposta esperada. As respostas esperadas são opcionais para importar um conjunto de testes. No entanto, você precisa de respostas esperadas para executar correspondência, similaridade e comparar casos de teste de significado.

  6. Salve o arquivo como .csv ou .txt.

  7. Importe o arquivo seguindo os passos em Criar um novo conjunto de teste.

Crie um conjunto de testes baseado em um tema

Crie um conjunto de testes com perguntas de conversas com usuários reais. Esse método utiliza temas (prévia), encontrados nas análises do seu agente.

Os temas são agrupamentos de perguntas retiradas do conjunto de perguntas do usuário que acionam respostas geradoras. Quando você cria um conjunto de testes usando um tema, você gera os casos de teste a partir de perguntas feitas por usuários relacionadas a esse tema.

Use esses conjuntos de teste para realizar avaliações focadas em uma área ou tema do escopo do seu agente. Por exemplo, se você tem um agente de atendimento ao cliente, pode acompanhar a qualidade das respostas para questões de cobrança e pagamentos separadamente de outros casos de uso, como solução de problemas.

Observação

Antes de criar conjuntos de teste a partir de temas, você precisa ter acesso a temas em análises. Revise os pré-requisitos para temas (prévia).

  1. Na página de Análises do seu agente, vá para a lista de Temas .

  2. Passe o mouse sobre um tema e depois selecione Avaliar.

    Captura de tela mostrando a opção Avaliar para um tema na lista de Temas.

    Você também pode selecionar Ver tudo para ver mais temas, e então selecionar Avaliar.

  3. Selecione Criar e abrir.

  4. Edite os detalhes dos conjuntos de teste e dos casos. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, veja Modificar um conjunto de teste.

  5. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.