Escolha métodos de avaliação

Ao criar conjuntos de teste, escolha entre diferentes métodos para avaliar as respostas do seu agente. Cada método de teste tem seus próprios pontos fortes e se adequa a diferentes tipos de avaliações.

Método de teste	Medidas	Tipo de conjunto de testes	Pontuação	Configurações
Qualidade geral	Quão boa é a resposta de um caso de teste com base em qualidades específicas	Resposta única ou conversa	Pontuação de 100%	None
Comparar significado	Quão bem o significado da resposta do caso de teste corresponde à resposta esperada	Resposta única	Pontuação de 100%	Pontuação de aprovação, resposta esperada
Uso da ferramenta	Se o caso de teste usou todos ou quaisquer recursos esperados	Resposta única	Aprovado/reprovado	Capacidades esperadas
Correspondência de palavras-chave	Se o caso de teste usou todas ou algumas das palavras-chave ou frases esperadas	Resposta única ou conversa	Aprovado/reprovado	Palavras-chave ou frases esperadas
Similaridade de texto	Quão bem o texto da resposta do caso de teste corresponde à resposta esperada	Resposta única	Pontuação de 100%	Pontuação de aprovação, resposta esperada
Correspondência exata	Se a resposta do caso de teste corresponde exatamente à resposta esperada	Resposta única	Aprovado/reprovado	Resposta esperada
Personalizado	Se a resposta do caso de teste atende aos seus critérios ou expectativas definidos.	Resposta única ou conversa	Aprovação/falha (passa os critérios de rótulo definidos)	Nome, instruções de avaliação, rótulos

Adicionar um método de teste

Ao criar ou editar um conjunto de teste, selecione Adicionar método de teste.
Selecione todos os métodos que deseja testar e depois selecione OK. Você pode adicionar vários métodos.
1. Alguns métodos exigem uma pontuação de aprovação. A pontuação de aprovação determina qual pontuação resulta em aprovação ou reprovação. Defina a pontuação e selecione OK.
2. Alguns métodos de teste exigem mais critérios.
Selecione Salvar para salvar suas alterações no conjunto de teste.

Selecione um método de teste existente para editar os critérios desse método ou exclua esse método.

Qualidade geral

Disponível para conjuntos de teste de resposta única e de conversa. A qualidade geral ajuda você a decidir se as respostas do seu agente atendem aos seus padrões. Ele usa um LLM (modelo de linguagem grande) para avaliar a eficiência com que um agente responde às perguntas do usuário.

A qualidade geral é especialmente útil quando não há uma resposta exata esperada. Ele oferece uma forma flexível e escalável de avaliar respostas com base nos documentos recuperados e no fluxo da conversa.

Ele utiliza esses critérios-chave e aplica um prompt consistente para orientar a pontuação:

Relevância: até que ponto a resposta do agente aborda a questão. Por exemplo, a resposta do agente permanece no assunto e responde diretamente à pergunta?
Fundamentação: até que ponto a resposta do agente se baseia no contexto fornecido. Por exemplo, a referência de resposta do agente depende de informações fornecidas no contexto, em vez de introduzir informações não relacionadas ou sem suporte?
Integridade: até que ponto a resposta do agente fornece todas as informações necessárias. Por exemplo, a resposta do agente abrange todos os aspectos da pergunta e fornece detalhes suficientes?
Abstenção: se o agente tentou responder à pergunta.

Para ser considerada de alta qualidade, uma resposta deve atender a todos esses critérios-chave. Se um critério não for atendido, a resposta é sinalizada para melhoria. Esse método de pontuação garante que somente as respostas completas e bem suportadas recebam as principais notas. Por outro lado, as respostas incompletas ou sem evidência de suporte recebem pontuações mais baixas.

Ao adicionar ou editar métodos de teste, selecione Qualidade Geral. Todos os conjuntos de teste começam com esse método por padrão.

Você não precisa adicionar respostas esperadas aos casos de teste para completar uma avaliação geral de qualidade.

Note

A redução do número de fontes de conhecimento para o agente não é garantida para melhorar a classificação geral de qualidade na avaliação do agente. Essa limitação existe porque o conhecimento recuperado (conhecimento que o modelo considera relevante para um caso de teste específico) pode ser muito grande.

Comparar significado

Disponível para conjuntos de teste de resposta única. Comparar significado avalia o quanto a resposta do agente reflete o significado pretendido da resposta esperada. Em vez de focar na redação exata, ele usa a similaridade de intenção, ou seja, compara as ideias e o significado por trás das palavras, para julgar o quão próxima a resposta se alinha com o que você esperava.

Assim como a qualidade geral, comparar significado é especialmente útil quando não há uma resposta exata esperada. Ele oferece uma forma flexível e escalável de avaliar respostas com base nos documentos recuperados e no fluxo da conversa.

Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta. A nota padrão para aprovação é 50. O método de teste de comparação de significado é útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas o significado geral ou a intenção ainda precisa ser considerada correta.

Ao adicionar ou editar métodos de teste, selecione Comparar significado.
Defina a nota de aprovação desse método.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Uso de ferramentas

Disponível para conjuntos de teste de resposta única. A ferramenta usará testes se o agente usou ferramentas ou tópicos específicos para gerar uma resposta. Se aconteceu, passa. Se não fizer isso, falhará.

Ao adicionar ou editar métodos de teste, selecione Uso da Ferramenta.
Adicione as ferramentas ou tópicos esperados. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste. Para adicionar as mesmas ferramentas e tópicos esperados para todos os casos de teste, selecione o ícone Editar no título da coluna Ferramentas.
2. No painel Selecionar ferramentas , selecione os tópicos ou as ferramentas que você espera que seu agente use para esse caso de teste.
3. Selecione OK.
4. Selecione Salvar para salvar alterações.
5. Repita para todos os casos de teste que você quer executar com o uso de ferramentas.

Correspondência de palavras-chave

Disponível para conjuntos de teste de resposta única e de conversa. A correspondência de palavras-chave verifica se a resposta do agente contém algumas ou todas as palavras ou frases da resposta esperada que você definiu. Se isso acontecer, ela é considerada correta. Se não fizer isso, falhará.

Você pode escolher se uma aprovação exige alguma das palavras-chave ou todas elas. Escolher Qualquer significa que, se pelo menos uma palavra ou frase coincidir, o caso de teste passa. Escolher Todos significa que todas as palavras ou frases esperadas devem coincidir para que um caso de teste seja aprovado.

Ao adicionar ou editar métodos de teste, selecione Correspondência de palavras-chave.
Selecione se um caso de teste precisa de Qualquer ou de Toda palavra-chave para corresponder.
Adicione as palavras-chave esperadas. Qualquer caso de teste sem palavras-chave esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. No painel Editar caso de teste , adicione uma palavra-chave ou frase que você espera que a resposta desse caso tenha.
3. Selecione + Adicionar para adicionar mais palavras-chave ou frases. Para remover uma palavra-chave ou frase, selecione o ícone Excluir .
4. Selecione Aplicar para salvar as palavras-chave esperadas.
5. Repita para todos os casos de teste que você quer testar para correspondência de palavras-chave.

Similaridade de texto

O método de teste de similaridade de texto compara a similaridade das respostas do agente com as respostas esperadas definidas no conjunto de testes. Use esse método de teste quando uma resposta correta precisar corresponder exatamente à resposta esperada, ou quase exatamente, na estrutura de texto e frase. Por exemplo, a redação precisa geralmente é necessária quando um documento legal é gerado. Esse teste normalmente é usado junto com o método de teste Compare meaning , que garante a similaridade de significado, mas não garante a similaridade da redação. Ele também é distinto do método de teste de correspondência de palavra-chave , que garante a presença de determinados termos, mas não garante a similaridade da construção. Se a resposta inteira precisar corresponder exatamente à resposta esperada, use o método de teste de correspondência exata .

Uma métrica de similaridade de cosseno avalia o quanto a resposta do agente é semelhante à formulação da resposta esperada e atribui uma pontuação. A pontuação varia de 0 a 1, onde 1 significa que a resposta corresponde de perto e 0 significa que não. Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta.

Ao adicionar ou editar métodos de teste, selecione Similaridade de Texto.
Defina a nota de aprovação desse método.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Correspondência exata

Disponível para conjuntos de teste de resposta única. A correspondência exata verifica se a resposta do agente corresponde exatamente à resposta esperada no teste: caractere para caractere, palavra por palavra. Se for a mesma coisa, passa. Se alguma coisa for diferente, ela falhará. A correspondência exata é útil para respostas curtas e precisas, como, por exemplo, números, códigos ou frases fixas. Ela não se adequa às respostas que as pessoas podem expressar de várias maneiras corretas.

Ao adicionar ou editar métodos de teste, selecione Correspondência Exata.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Personalizado

Custom é um método de teste configurável. Ele permite que você teste e rotule respostas do agente usando seus próprios critérios. Por exemplo, você pode criar um teste de conformidade para um agente de RH rotular respostas de teste como compatíveis ou não compatíveis com a descrição da conformidade de RH.

Um teste personalizado tem dois componentes para você configurar:

Instruções de avaliação: descreve a meta que você deseja realizar com este teste. O que você quer que o teste descubra sobre as respostas do seu agente?

Boas instruções de avaliação devem:

Seja orientado a metas.
Use apenas os caracteres permitidos.
Use marcadores e títulos para a organização.

Por exemplo:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Rótulos: descreve o resultado atribuído a cada resposta usando o teste personalizado. Os rótulos também têm atribuições de aprovação/falha, que contam para a taxa de aprovação do conjunto de testes para esse método de teste.

Os rótulos têm um nome e uma descrição. Uma boa descrição:

É conciso.
Contém os atributos que você está procurando em respostas correspondentes.

Uma estratégia para rótulos é ter duas categorias: uma para respostas que atendem aos critérios que você está procurando, e outra para respostas que não atendem. Por exemplo, um teste personalizado de conformidade de política de RH pode ter rótulos compatíveis e não compatíveis .

Ao adicionar ou editar métodos de teste, selecione Personalizado.
Insira um nome para este teste personalizado.
Adicione instruções de avaliação.
Adicione dois ou mais rótulos. Cada rótulo tem um nome e uma descrição.

Para adicionar mais rótulos, selecione Adicionar rótulo.

Os títulos de rótulo só podem usar letras, números, espaço, hífen, -, sublinhado _, barra à direita /, E comercial &, sinal de adição + e ponto ..
Defina o resultado Aprovado ou Reprovado para cada etiqueta.
Selecione OK.

Comentários

Esta página foi útil?

Last updated on 2026-06-02