Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Visão geral
Os juízes são componentes fundamentais do SDK/API do MLflow para a avaliação de qualidade baseada em LLM. Cada juiz usa um modelo LLM especialmente ajustado, hospedado pelo Databricks , projetado para executar avaliações de qualidade do GenAI.
Pense em um juiz como um assistente de IA especializado em avaliação de qualidade – eles leem as saídas do aplicativo e fazem avaliações com base nos critérios definidos. Por exemplo, eles podem entender que give me healthy food options
essa é a mesma consulta que food to keep me fit
são consultas muito semelhantes.
Importante
Embora os juízes possam ser usados como APIs autônomas, devem ser encapsulados em Marcadores para uso pela Plataforma de Avaliação e pelo serviço de monitoramento de produção.
Quando usar juízes
Use juízes quando precisar avaliar entradas ou saídas de linguagem simples:
- Correção semântica: "Isso responde à pergunta corretamente?"
- Estilo e tom: "Isso é apropriado para nossa voz de marca?"
- Segurança e conformidade: "Isso segue nossas diretrizes de conteúdo?"
- Qualidade relativa: "Qual resposta é mais útil?"
Em vez disso, use avaliadores personalizados baseados em código para:
- Correspondência exata: Verificando palavras-chave específicas
- Validação de formato: estrutura JSON, limites de comprimento
- Métricas de desempenho: latência, uso de token
Análise aprofundada sobre os juízes
Para obter informações detalhadas sobre juízes específicos:
Juízes predefinidos
O MLflow fornece juízes validados por pesquisa para casos de uso comuns:
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)
Consulte a referência de juízes predefinidos para obter uma documentação detalhada.
Juízes personalizados
Crie juízes específicos do domínio usando duas abordagens:
Baseado em diretrizes (ponto de partida recomendado) – critérios de aprovação/falha em linguagem natural que são fáceis de explicar às partes interessadas. Melhor para verificações de conformidade, guias de estilo ou inclusão/exclusão de informações.
Baseado em prompt – personalização de prompt completo para avaliações complexas. Use quando precisar de vários valores de saída (por exemplo, "great", "ok", "bad") ou critérios que não podem ser expressos como diretrizes de aprovação/falha.
Avaliar precisão
O Databricks melhora continuamente a qualidade do juiz por meio de:
- Validação de pesquisa contra avaliação de especialistas humanos
- Acompanhamento de métricas: Kappa de Cohen, precisão, pontuação de F1
- Testes diversos em conjuntos de dados acadêmicos e do mundo real
Consulte o blog do Databricks sobre melhorias na avaliação de LLM para obter detalhes.
Informações sobre os modelos que alimentam os avaliadores LLM
- Os avaliadores LLM podem usar serviços de terceiros para avaliar os aplicativos GenAI, incluindo o Azure OpenAI operado pela Microsoft.
- Para o Azure OpenAI, a Databricks optou por não usar o Monitoramento de Abuso, portanto, nenhum prompt ou resposta é armazenado com o Azure OpenAI.
- Para os workspaces da União Europeia (UE), os avaliadores de LLM usam modelos hospedados na Europa. Todas as outras regiões usam modelos hospedados nos EUA.
- Desabilitar os Recursos de assistência de IA do Azure impede que o avaliador de LLM chame os modelos de IA alimentados pelo Azure.
- Os juízes LLM destinam-se a ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e as saídas de juiz LLM não devem ser usadas para treinar, melhorar ou ajustar uma LLM.
Próximas etapas
Guias de instruções
- Use pontuadores predefinidos de LLM que envolvem juízes integrados
- Criar juízes baseados em diretrizes usando critérios de linguagem natural
- Criar juízes personalizados com base em instruções para avaliação complexa
Conceitos
- Referência de juízes predefinidos – Documentação detalhada de todos os juízes embutidos
- Juízes baseados em diretrizes – Como funciona a avaliação de diretrizes
- Juízes baseados em prompt – Criando prompts de avaliação personalizados
- Pontuadores – Como os juízes se integram ao sistema de avaliação