Pontuadores baseados em LLM

2025-06-11

Visão geral

Os juízes são componentes fundamentais do SDK/API do MLflow para a avaliação de qualidade baseada em LLM. Cada juiz usa um modelo LLM especialmente ajustado, hospedado pelo Databricks , projetado para executar avaliações de qualidade do GenAI.

Pense em um juiz como um assistente de IA especializado em avaliação de qualidade – eles leem as saídas do aplicativo e fazem avaliações com base nos critérios definidos. Por exemplo, eles podem entender que give me healthy food options essa é a mesma consulta que food to keep me fit são consultas muito semelhantes.

Importante

Embora os juízes possam ser usados como APIs autônomas, devem ser encapsulados em Marcadores para uso pela Plataforma de Avaliação e pelo serviço de monitoramento de produção.

Quando usar juízes

Use juízes quando precisar avaliar entradas ou saídas de linguagem simples:

Correção semântica: "Isso responde à pergunta corretamente?"
Estilo e tom: "Isso é apropriado para nossa voz de marca?"
Segurança e conformidade: "Isso segue nossas diretrizes de conteúdo?"
Qualidade relativa: "Qual resposta é mais útil?"

Em vez disso, use avaliadores personalizados baseados em código para:

Correspondência exata: Verificando palavras-chave específicas
Validação de formato: estrutura JSON, limites de comprimento
Métricas de desempenho: latência, uso de token

Análise aprofundada sobre os juízes

Para obter informações detalhadas sobre juízes específicos:

Juízes predefinidos

O MLflow fornece juízes validados por pesquisa para casos de uso comuns:

from mlflow.genai.judges import (
    is_safe,              # Content safety
    is_relevant,          # Query relevance
    is_grounded,          # RAG grounding
    is_correct,           # Factual accuracy
    is_context_sufficient # Retrieval quality
)

Consulte a referência de juízes predefinidos para obter uma documentação detalhada.

Juízes personalizados

Crie juízes específicos do domínio usando duas abordagens:

Baseado em diretrizes (ponto de partida recomendado) – critérios de aprovação/falha em linguagem natural que são fáceis de explicar às partes interessadas. Melhor para verificações de conformidade, guias de estilo ou inclusão/exclusão de informações.
Baseado em prompt – personalização de prompt completo para avaliações complexas. Use quando precisar de vários valores de saída (por exemplo, "great", "ok", "bad") ou critérios que não podem ser expressos como diretrizes de aprovação/falha.

Avaliar precisão

O Databricks melhora continuamente a qualidade do juiz por meio de:

Validação de pesquisa contra avaliação de especialistas humanos
Acompanhamento de métricas: Kappa de Cohen, precisão, pontuação de F1
Testes diversos em conjuntos de dados acadêmicos e do mundo real

Consulte o blog do Databricks sobre melhorias na avaliação de LLM para obter detalhes.

Informações sobre os modelos que alimentam os avaliadores LLM

Os avaliadores LLM podem usar serviços de terceiros para avaliar os aplicativos GenAI, incluindo o Azure OpenAI operado pela Microsoft.
Para o Azure OpenAI, a Databricks optou por não usar o Monitoramento de Abuso, portanto, nenhum prompt ou resposta é armazenado com o Azure OpenAI.
Para os workspaces da União Europeia (UE), os avaliadores de LLM usam modelos hospedados na Europa. Todas as outras regiões usam modelos hospedados nos EUA.
Desabilitar os Recursos de assistência de IA do Azure impede que o avaliador de LLM chame os modelos de IA alimentados pelo Azure.
Os juízes LLM destinam-se a ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e as saídas de juiz LLM não devem ser usadas para treinar, melhorar ou ajustar uma LLM.

Próximas etapas

Guias de instruções

Use pontuadores predefinidos de LLM que envolvem juízes integrados
Criar juízes baseados em diretrizes usando critérios de linguagem natural
Criar juízes personalizados com base em instruções para avaliação complexa

Conceitos

Referência de juízes predefinidos – Documentação detalhada de todos os juízes embutidos
Juízes baseados em diretrizes – Como funciona a avaliação de diretrizes
Juízes baseados em prompt – Criando prompts de avaliação personalizados
Pontuadores – Como os juízes se integram ao sistema de avaliação