Teilen über


MLflow 3 für GenAI

MLflow 3 für GenAI ist eine offene Plattform, die die Verfolgung, Auswertung und Observierbarkeit für GenAI-Apps und -Agenten während des gesamten Entwicklungs- und Produktionslebenszyklus vereint. Es umfasst echtzeitbasierte Ablaufverfolgungsprotokollierung, integrierte und benutzerdefinierte Scorer, Integration von menschlichem Feedback und Versionsnachverfolgung, die Ihnen helfen, die App-Qualität während der Entwicklung effizient zu bewerten und zu verbessern und die Überwachung und Verbesserung der Qualität in der Produktion fortzusetzen.

Verwalteter MLflow auf Databricks erweitert Open Source MLflow mit Funktionen für Produktions-GenAI-Anwendungen, einschließlich unternehmensbereiter Governance, vollständig verwaltetem Hosting, Skalierung auf Produktionsebene und Integration in Ihre Daten im Databricks Lakehouse und Unity Catalog.

Informationen zur Agentauswertung in MLflow 2 finden Sie unter Mosaik AI Agent Evaluation (MLflow 2) und dem Migrationsleitfaden. Für MLflow 3 wurden die Agent Evaluation SDK-Methoden in databricks-managed MLflow integriert.

Eine Reihe von Lernprogrammen für die ersten Schritte finden Sie unter "Erste Schritte".

Wie MLflow 3 hilft, die GenAI-App-Qualität zu optimieren

Die Auswertung von GenAI-Anwendungen und -Agents ist komplexer als die Auswertung herkömmlicher Software. Eingaben und Ausgaben sind häufig Freiformtext, und viele verschiedene Ausgaben können als richtig betrachtet werden. Qualität hängt nicht nur von der Korrektheit, sondern auch von Faktoren wie Genauigkeit, Länge, Vollständigkeit, Angemessenheit und anderen spezifischen Kriterien für den Anwendungsfall ab. Da LLMs inhärent nicht deterministisch sind und GenAI-Agents zusätzliche Komponenten wie Retriever und Tools enthalten, können ihre Antworten von Ausführung zu Ausführung variieren.

Entwickler benötigen konkrete Qualitätsmetriken, automatisierte Auswertungen und kontinuierliche Überwachung, um robuste KI-Apps zu erstellen und bereitzustellen. MLflow 3 für GenAI bietet diese Schlüsselelemente für effiziente Entwicklung, Bereitstellung und kontinuierliche Verbesserung:

Mithilfe von MLflow 3 auf Databricks können Sie KI zu Ihren Daten bringen, um Ihnen zu helfen, die Qualität zu verstehen und zu verbessern. Unity Catalog bietet konsistente Governance für Eingabeaufforderungen, Apps und Ablaufverfolgungen. Mit jedem Modell oder Framework unterstützt MLflow Sie in der gesamten Entwicklungsschleife bis hin und in der Produktion.

Get started

Beginnen Sie mit der Erstellung besserer GenAI-Anwendungen mit umfassenden Beobachtbarkeits- und Evaluierungstools.

Aufgabe BESCHREIBUNG
Schnellstarthandbuch Mit den schrittweisen Anleitungen zur Instrumentierung Ihrer ersten Anwendung mit Ablaufverfolgung, laufender Auswertung und dem Sammeln von menschlichem Feedback können Sie in wenigen Minuten startklar sein.
Erste Schritte: MLflow-Ablaufverfolgung für GenAI (Databricks Notebook) Instrumentieren Sie eine einfache GenAI-App, um automatisch detaillierte Traces für Debugging und Optimierung zu erfassen.
Lernprogramm: Bewerten und Verbessern einer GenAI-Anwendung Führt Sie durch die Auswertung einer E-Mail-Generierungs-App, die Retrieval-Augmented Generation (RAG) verwendet.
10-minütige Demo: Sammeln von menschlichem Feedback Sammeln Sie Endbenutzerfeedback, fügen Sie Entwickleranmerkungen hinzu, erstellen Sie Expertenüberprüfungssitzungen, und verwenden Sie dieses Feedback, um die Qualität Ihrer GenAI-App zu bewerten.

Ablaufverfolgung

MLflow Tracing bietet Observability und protokolliert die für die Auswertung und Überwachung erforderlichen Tracing-Daten.

Merkmal BESCHREIBUNG
MLflow-Ablaufverfolgung Umfassende Beobachtbarkeit für GenAI-Anwendungen, einschließlich komplexer agentenbasierter Systeme. Verfolgen Sie Eingaben, Ausgaben, Zwischenschritte und Metadaten, um ein vollständiges Bild davon zu erfahren, wie sich Ihre App verhält.
Was ist Nachverfolgung? Einführung in die Konzepte der Ablaufverfolgung.
Überprüfen des Verhaltens und der Leistung Ihrer App Durch die vollständige Sichtbarkeit der Ausführung können Sie Eingabeaufforderungen, Abrufe, Toolaufrufe, Antworten, Latenz und Kosten erfassen.
Beobachtbarkeit der Produktion Verwenden Sie die gleiche Instrumentierung in Entwicklungs- und Produktionsumgebungen für eine konsistente Auswertung.
Erstellen von Auswertungsdatensätzen Analysieren Sie Ablaufverfolgungen, um Qualitätsprobleme zu identifizieren, repräsentative Ablaufverfolgungen auszuwählen, Auswertungsdatensätze zu erstellen und Ihre Anwendung systematisch zu verbessern.
Verfolgungsintegrationen Die MLflow-Verfolgung ist in viele Bibliotheken und Frameworks für die automatische Verfolgung integriert, mit der Sie sofortige Überwachbarkeit in Ihren Generative KI-Anwendungen mit minimalem Aufwand erzielen können.

Auswertung und Überwachung

Ersetzen Sie manuelle Tests durch automatisierte Auswertungen mit integrierten und benutzerdefinierten LLM-Richtern und Scorern, die mit menschlichem Fachwissen übereinstimmen und sowohl in der Entwicklung als auch in der Produktion angewendet werden können. Jede Produktionsinteraktion wird die Möglichkeit, mit integrierten Feedback- und Auswertungsworkflows zu verbessern.

Merkmal BESCHREIBUNG
Bewerten und Überwachen von GenAI-Agenten Übersicht über die Auswertung und Überwachung von Agents mit MLflow 3 auf Databricks.
LLM-Richter und Bewertungsrichter MLflow 3 umfasst integrierte LLM-Bewertungskomponenten für Sicherheit, Relevanz, Korrektheit, Abrufqualität und mehr. Sie können auch benutzerdefinierte LLM-Richter und codebasierte Scorer für Ihre spezifischen Geschäftsanforderungen erstellen.
Auswertung Führen Sie die Auswertung während der Entwicklung oder als Teil eines Releaseprozesses aus.
Produktionsüberprüfung Überwachen Sie kontinuierlich eine Stichprobe des Produktionsverkehrs mithilfe von LLM-Richtern und Scorern.
Sammeln von menschlichem Feedback Sammeln und verwenden Sie Feedback von Domänenexperten und Endbenutzern während der Entwicklung und während der Produktion zur kontinuierlichen Verbesserung.

Verwalten des GenAI-App-Lebenszyklus

Version, Nachverfolgen und Steuern Ihrer gesamten GenAI-Anwendung mit Verwaltungs- und Governancetools auf Unternehmensniveau.

Merkmal BESCHREIBUNG
Anwendungsversionsverwaltung Verfolgen Sie Code, Parameter und Auswertungsmetriken für jede Version.
Prompt Registry Zentrale Verwaltung für Versionsverwaltung und Freigabe von Eingabeaufforderungen in Ihrer Organisation mit A/B-Testfunktionen und Unity Catalog-Integration.
Unternehmensintegration Unity-Katalog. Einheitliche Governance für alle KI-Ressourcen mit Unternehmenssicherheits-, Zugriffssteuerungs- und Compliancefeatures.
Datenintelligenz. Verbinden Sie Ihre GenAI-Daten mit Ihren Geschäftsdaten im Databricks Lakehouse und liefern Sie benutzerdefinierte Analysen an Ihre Geschäftsbeteiligten.
Mosaik AI Agent dient. Stellen Sie Agents für die Produktion mit Skalierung und Betriebssicherheit bereit.