Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve os conjuntos de avaliação e como eles ajudam a garantir a qualidade do aplicativo.
O que é um conjunto de avaliação?
Para medir a qualidade, o Databricks recomenda a criação de um conjunto de avaliação com rótulo humano. Um conjunto de avaliação é um conjunto de consultas com curadoria e representação, juntamente com respostas de verdade básica e (opcionalmente) os documentos de suporte corretos que devem ser recuperados. A entrada humana é crucial nesse processo, pois garante que o conjunto de avaliação reflita com precisão as expectativas e os requisitos dos usuários finais.
A curadoria de rótulos humanos pode ser um processo demorado. Você pode começar criando um conjunto de avaliação que inclui apenas perguntas e adicione as respostas básicas à verdade ao longo do tempo. A Avaliação do Agente de IA do Mosaico pode avaliar a qualidade da cadeia sem a verdade básica, embora, se a verdade básica estiver disponível, ela compute métricas adicionais, como correção de resposta.
Elementos de um bom conjunto de avaliação
Um bom conjunto de avaliação tem as seguintes características:
- Representante: reflete com precisão a variedade de solicitações que o aplicativo encontrará em produção.
- Desafiador: O conjunto deve incluir casos difíceis e diversos para testar efetivamente os recursos do modelo. O ideal é que ele inclua exemplos de adversários, como perguntas que tentam a injeção de solicitações ou perguntas que tentam gerar respostas inadequadas da LLM.
- Atualizado continuamente: O conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a alteração da natureza dos dados indexados e as alterações nos requisitos do aplicativo.
O Databricks recomenda pelo menos 30 perguntas em seu conjunto de avaliação e, idealmente, 100 a 200. Os melhores conjuntos de avaliação crescerão ao longo do tempo para conter 1.000 perguntas.
Conjuntos de treinamento, teste e validação
Para evitar o sobreajuste, o Databricks recomenda dividir o conjunto de avaliação em conjuntos de treinamento, teste e validação:
- Conjunto de treinamento: cerca de 70% das perguntas. Usado para uma passagem inicial para avaliar cada experimento para identificar os mais altos potenciais.
- Conjunto de teste: cerca de 20% das perguntas. Usado para avaliar os experimentos de maior desempenho do conjunto de treinamento.
- Conjunto de validação: cerca de 10% das perguntas. Usado para uma verificação de validação final antes de implantar um experimento em produção.
A Avaliação do Agente de IA do Mosaico ajuda você a criar um conjunto de avaliação fornecendo uma interface de chat baseada na Web para que seus stakeholders forneçam comentários sobre as saídas do aplicativo. As saídas da cadeia e os comentários dos stakeholders são salvos nas Tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Consulte como montar um conjunto de avaliação na seção de implementação deste livro de receitas para instruções passo a passo com exemplos de código.