Partilhar via


Criar conjuntos de testes para avaliações

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

No Copilot Studio, pode criar um conjunto de testes de casos para avaliar o desempenho dos seus agentes. Os casos de teste permitem simular cenários do mundo real para seu agente, para que você possa medir a precisão, a relevância e a qualidade das respostas às perguntas feitas ao agente, com base nas informações que o agente pode acessar. Ao utilizar os resultados do conjunto de testes, pode otimizar o comportamento do seu agente e validar que cumpre os requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de visualização do Microsoft Copilot Studio e está sujeito a alterações.

As funcionalidades de pré-visualização não se destinam a utilização em produção e podem ter funcionalidades restritas. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer feedback.

Se você estiver criando um agente pronto para produção, consulte Visão geral do Microsoft Copilot Studio.

As avaliações funcionam enviando mensagens ao seu agente, registando as respostas e comparando essas respostas com as respostas esperadas ou com um padrão de qualidade. Mais mensagens, usadas como casos de teste, podem dar-lhe uma melhor ideia de como o seu agente lida com vários casos de uso.

Pode criar casos de teste manualmente, importá-los usando uma folha de cálculo ou usar IA para gerar mensagens com base no design e conhecimento do seu agente. Pode então escolher como quer medir a qualidade das respostas do seu agente para cada caso de teste dentro de um conjunto de testes. Para mais informações sobre como criar casos de teste, consulte Criar um conjunto de teste.

Importante

Os resultados dos testes estão disponíveis no Copilot Studio durante 89 dias. Para guardar os resultados dos seus testes por um período mais longo, exporte os resultados para um ficheiro CSV.

Criar um novo conjunto de testes

  1. Vá à página de Avaliação do seu agente.

  2. Selecionar novo conjunto de testes.

    Captura de ecrã que mostra o botão Criar novo teste na página de Avaliação.

  3. Na página Novo conjunto de testes, escolha o método que pretende usar para criar seu conjunto de testes:

    • Pergunta rápida configurada para que o Copilot Studio crie automaticamente casos de teste com base na descrição, instruções e capacidades do seu agente. Esta opção gera 10 perguntas para realizar avaliações pequenas e rápidas ou para começar a construir um conjunto de testes maior.
    • Pergunta completa definida para que o Copilot Studio gere casos de teste usando as fontes de conhecimento ou tópicos do seu agente.
    • Use a conversa do chat de teste para preencher automaticamente o conjunto de perguntas com as perguntas que forneceu no chat. Este método utiliza perguntas do último chat de teste. Também pode iniciar uma avaliação a partir do chat de teste usando o botão de avaliar . Captura de ecrã que mostra o botão Criar novo teste no chat de teste.
    • Importa casos de teste de um ficheiro arrastando o ficheiro para a área designada, selecionando Navegar para carregar um ficheiro, ou selecionando uma das outras opções de upload.
    • Ou, escreve algumas perguntas tu próprio para criar manualmente um conjunto de testes. Siga os passos para editar um conjunto de testes para adicionar e editar casos de teste.
  4. Editar os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos exceto qualidade geral exigem respostas esperadas. Para mais informações sobre edição, consulte Modificar um conjunto de teste.

  5. Em Nome, introduza um nome para o conjunto de testes.

  6. Selecione perfil de utilizador, depois selecione ou adicione a conta que pretende usar para este conjunto de testes, ou continue sem autenticação. A avaliação utiliza esta conta para se ligar a fontes de conhecimento e ferramentas durante os testes. Para informações sobre como adicionar e gerir perfis de utilizador, consulte Gerir perfis de utilizador e ligações.

Observação

O teste automatizado utiliza a autenticação da conta de teste selecionada. Se o seu agente tiver fontes de conhecimento ou ligações que requerem autenticação específica, selecione a conta apropriada para o seu teste.

  1. Selecione Guardar para atualizar o conjunto de testes sem executar os casos de teste ou Avaliar para executar o conjunto de testes imediatamente.

Limitação da geração de casos de teste

Quando gera um grupo de casos de teste, a geração pode falhar porque uma ou mais perguntas violam as definições de moderação de conteúdo do seu agente. As razões incluem:

  • As instruções ou tópicos do agente levam o modelo a gerar conteúdo que é sinalizado
  • A fonte de conhecimento ligada inclui conteúdos sensíveis ou restritos
  • As definições de moderação de conteúdo do agente são demasiado rigorosas

Pode ser necessário tentar diferentes ações para resolver o problema, como ajustar fontes de conhecimento, atualizar instruções ou modificar definições de moderação.

Gerar um conjunto de testes a partir de conhecimento ou tópicos

Pode testar o seu agente gerando perguntas usando a informação e as fontes de conversa que o seu agente já possui. Este método de teste é bom para testar como o seu agente usa o conhecimento e os temas que já tem, mas não é bom para testar lacunas de informação.

Pode gerar casos de teste usando estas fontes de conhecimento:

  • Texto
  • Microsoft Word
  • Microsoft Excel

Pode usar ficheiros de até 293 KB para gerar perguntas de teste.

Para gerar um conjunto de teste:

  1. Na página do novo conjunto de testes , escolha Conjunto completo de perguntas.

  2. Selecione Conhecimento ou Tópicos.

    • O conhecimento funciona melhor para agentes que usam orquestração generativa. Este método gera perguntas utilizando uma seleção das fontes de conhecimento do seu agente.
    • Topics funciona melhor para agentes que usam orquestração clássica. Este método cria questões ao usar os temas do seu agente.
  3. Para Conhecimento, selecione as fontes de conhecimento que pretende incluir na geração de perguntas.

Captura de ecrã mostrando a seleção de fontes de conhecimento a incluir na geração do caso de teste.

  1. Para Conhecimento e Tópicos, selecione e arraste o slider para escolher o número de perguntas a gerar.

Captura de ecrã a mostrar o slider para selecionar quantas perguntas gerar.

  1. Selecione Gerar.

  2. Editar os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos exceto qualidade geral exigem respostas esperadas. Para mais informações sobre edição, consulte Modificar um conjunto de teste.

  3. Selecione Gerir perfil para selecionar ou ligar a conta que pretende usar neste conjunto de testes. Também pode continuar sem adicionar uma conta para autenticação.

Observação

O teste automatizado utiliza a autenticação da conta de teste selecionada. Se o seu agente tiver fontes de conhecimento ou ligações que requerem autenticação específica, selecione a conta apropriada para o seu teste.

Quando o Copilot Studio gera casos de teste, utiliza as credenciais de autenticação de uma conta ligada para aceder às fontes de conhecimento e ferramentas do seu agente. Os casos de teste ou resultados gerados podem incluir informações sensíveis a que a conta ligada tem acesso, e esta informação é visível para todos os criadores que conseguem aceder ao conjunto de teste.

  1. Selecione Guardar para atualizar o conjunto de testes sem executar os casos de teste ou Avaliar para executar o conjunto de testes imediatamente.

Criar um ficheiro de conjunto de teste para importar

Em vez de criar os seus casos de teste diretamente no Copilot Studio, pode criar um ficheiro de folha de cálculo com todos os seus casos de teste e importá-los para criar o seu conjunto de testes. Pode compor cada pergunta de teste, determinar o método de teste que pretende utilizar e declarar as respostas esperadas para cada pergunta. Quando terminar de criar o arquivo, salve-o como um arquivo .csv ou .txt e importe-o para o Copilot Studio.

Importante

  • O dossiê pode conter até 100 perguntas.
  • Cada pergunta pode ter até 1.000 caracteres, incluindo espaços.
  • O ficheiro deve estar em valores separados por vírgulas (CSV) ou formato de texto.

Para criar o ficheiro de importação:

  1. Abra uma aplicação de folha de cálculo (por exemplo, Microsoft Excel).

  2. Adicione os seguintes cabeçalhos, nesta ordem, na primeira linha:

    • Question
    • Resposta esperada
    • Método de teste
  3. Introduza as perguntas do teste na coluna Pergunta. Cada pergunta pode ter 1.000 caracteres ou menos, incluindo espaços.

  4. Introduza um dos seguintes métodos de teste para cada pergunta na coluna Método de teste:

    • Qualidade geral
    • Comparar significado
    • Semelhança
    • Correspondência exata
    • Correspondência parcial
  5. Introduza as respostas esperadas para cada pergunta na coluna Resposta esperada. As respostas esperadas são opcionais para importar um conjunto de testes. No entanto, precisa de respostas esperadas para executar correspondência, semelhança e comparar casos de teste de significado.

  6. Guarde o ficheiro como um ficheiro .cvs ou .txt.

  7. Importa o ficheiro seguindo os passos em Criar um novo conjunto de testes.