Partilhar via


Avaliar e monitorizar agentes de IA

O MLflow fornece recursos abrangentes de avaliação de agentes e LLM para ajudá-lo a medir, melhorar e manter a qualidade de seus aplicativos de IA. O MLflow suporta todo o ciclo de vida do desenvolvimento, desde os testes até o monitoramento da produção de LLMs, agentes, sistemas RAG ou outros aplicativos GenAI.

A avaliação de agentes de IA e LLMs é mais complexa do que a avaliação tradicional do modelo de ML. Estas aplicações envolvem múltiplos componentes, conversas de vários turnos e critérios de qualidade criteriosos. Tanto as métricas qualitativas como as quantitativas requerem abordagens de avaliação especializadas para avaliar com precisão o desempenho.

O componente de avaliação e monitorização do MLflow 3 foi concebido para o ajudar a otimizar iterativamente a qualidade da sua aplicação GenAI. A avaliação e monitorização baseiam-se no MLflow Tracing, que fornece registos de rastreamento em tempo real nas fases de desenvolvimento, teste e produção. Os registos podem ser avaliados durante o desenvolvimento usando avaliadores e classificadores LLM incorporados ou personalizados, e a monitorização em produção pode reutilizar os mesmos avaliadores e classificadores, garantindo uma avaliação consistente ao longo do ciclo de vida da aplicação. Os especialistas do domínio podem fornecer feedback através de uma App de Revisão integrada para recolher feedback humano, produzindo dados de avaliação para iterações posteriores.

O diagrama mostra este fluxo de trabalho iterativo de alto nível.

Diagrama geral da avaliação e monitorização do MLflow 3

Característica Description
Demonstração de 10 minutos: Avaliar um aplicativo GenAI Execute um bloco de notas de demonstração rápido que introduza a Avaliação MLflow usando uma aplicação GenAI simples.
Tutorial: Avaliar e melhorar um aplicativo GenAI Passe por um tutorial do fluxo de trabalho completo de avaliação, usando uma aplicação RAG simulada. Use conjuntos de dados de avaliação e juízes de LLM para avaliar a qualidade, identificar problemas e melhorar iterativamente a sua aplicação.
Pontuadores e juízes LLM Defina métricas de qualidade para a sua aplicação usando juízes LLM incorporados, juízes LLM personalizados e scorers personalizados. Use as mesmas métricas tanto para desenvolvimento como para produção.
Avaliar durante o desenvolvimento Teste a sua aplicação GenAI em conjuntos de dados de avaliação, usando avaliadores e juízes de LLM. Compare versões das aplicações, acompanhe melhorias e partilhe resultados.
Avaliar conversas Avalie a qualidade da conversa em múltiplas voltas com avaliadores especializados para a completude da conversa, frustração do utilizador e coerência do diálogo.
Simulação de conversa Gerar conversas sintéticas com múltiplas voltas para testar agentes de IA conversacional com cenários e comportamentos de utilizadores diversificados.
Monitorar aplicativos em produção (Beta) Execute automaticamente os avaliadores e juízes LLM nos registos das suas aplicações GenAI em produção para monitorizar continuamente a qualidade.
Recolha de feedback humano Use a App Review para recolher feedback de especialistas e construir conjuntos de dados de avaliação.

Observação

A Avaliação de Agentes é integrada com o MLflow 3 gerenciado. Os métodos do SDK de Avaliação de Agente agora estão disponíveis usando o mlflow[databricks]>=3.1 SDK. Consulte Migrar do MLflow 2 para o MLflow 3 na Avaliação do Agente para atualizar o código de Avaliação do Agente do MLflow 2 para usar o MLflow 3.