MLflow 3 für GenAI

MLflow 3 für GenAI ist eine offene Plattform, die die Verfolgung, Auswertung und Observierbarkeit für GenAI-Apps und -Agenten während des gesamten Entwicklungs- und Produktionslebenszyklus vereint. Es umfasst echtzeitbasierte Ablaufverfolgungsprotokollierung, integrierte und benutzerdefinierte Scorer, Integration von menschlichem Feedback und Versionsnachverfolgung, die Ihnen helfen, die App-Qualität während der Entwicklung effizient zu bewerten und zu verbessern und die Überwachung und Verbesserung der Qualität in der Produktion fortzusetzen.

Verwalteter MLflow auf Databricks erweitert Open Source MLflow mit Funktionen für Produktions-GenAI-Anwendungen, einschließlich unternehmensbereiter Governance, vollständig verwaltetem Hosting, Skalierung auf Produktionsebene und Integration in Ihre Daten im Databricks Lakehouse und Unity Catalog.

Informationen zur Agentauswertung in MLflow 2 finden Sie unter Mosaik AI Agent Evaluation (MLflow 2) und dem Migrationsleitfaden. Für MLflow 3 wurden die Agent Evaluation SDK-Methoden in databricks-managed MLflow integriert.

Eine Reihe von Lernprogrammen für die ersten Schritte finden Sie unter "Erste Schritte".

Wie MLflow 3 hilft, die GenAI-App-Qualität zu optimieren

Die Auswertung von GenAI-Anwendungen und -Agents ist komplexer als die Auswertung herkömmlicher Software. Eingaben und Ausgaben sind häufig Freiformtext, und viele verschiedene Ausgaben können als richtig betrachtet werden. Qualität hängt nicht nur von der Korrektheit, sondern auch von Faktoren wie Genauigkeit, Länge, Vollständigkeit, Angemessenheit und anderen spezifischen Kriterien für den Anwendungsfall ab. Da LLMs inhärent nicht deterministisch sind und GenAI-Agents zusätzliche Komponenten wie Retriever und Tools enthalten, können ihre Antworten von Ausführung zu Ausführung variieren.

Entwickler benötigen konkrete Qualitätsmetriken, automatisierte Auswertungen und kontinuierliche Überwachung, um robuste KI-Apps zu erstellen und bereitzustellen. MLflow 3 für GenAI bietet diese Schlüsselelemente für effiziente Entwicklung, Bereitstellung und kontinuierliche Verbesserung:

Die Ablaufverfolgung protokolliert automatisch Eingaben, Zwischenschritte und Ausgaben und stellt die Datengrundlegung für Auswertung und Überwachung bereit.
Mit integrierten und benutzerdefinierten LLM-Richtern und Scorern können Sie verschiedene Aspekte der Qualität definieren und Metriken an Ihren Anwendungsfall anpassen.
Review-Apps für Expertenfeedback ermöglichen es Ihnen, Datasets für die Bewertung zu sammeln und zu kennzeichnen und automatisierte Richter und Scorer mit Expertenurteilen abzustimmen.
Automatisierte Auswertung und Überwachung nutzen die gleichen Richter und Scorer während der Entwicklung und Produktion.
Mit der App- und Aufforderungsversionsverwaltung können Sie Versionen vergleichen und Verbesserungen gegenüber Iterationen nachverfolgen.

Mithilfe von MLflow 3 auf Databricks können Sie KI zu Ihren Daten bringen, um Ihnen zu helfen, die Qualität zu verstehen und zu verbessern. Unity Catalog bietet konsistente Governance für Eingabeaufforderungen, Apps und Ablaufverfolgungen. Mit jedem Modell oder Framework unterstützt MLflow Sie in der gesamten Entwicklungsschleife bis hin und in der Produktion.

Get started

Beginnen Sie mit der Erstellung besserer GenAI-Anwendungen mit umfassenden Beobachtbarkeits- und Evaluierungstools.

Aufgabe	BESCHREIBUNG
Schnellstarthandbuch	Mit den schrittweisen Anleitungen zur Instrumentierung Ihrer ersten Anwendung mit Ablaufverfolgung, laufender Auswertung und dem Sammeln von menschlichem Feedback können Sie in wenigen Minuten startklar sein.
Erste Schritte: MLflow-Ablaufverfolgung für GenAI (Databricks Notebook)	Instrumentieren Sie eine einfache GenAI-App, um automatisch detaillierte Traces für Debugging und Optimierung zu erfassen.
Lernprogramm: Bewerten und Verbessern einer GenAI-Anwendung	Führt Sie durch die Auswertung einer E-Mail-Generierungs-App, die Retrieval-Augmented Generation (RAG) verwendet.
10-minütige Demo: Sammeln von menschlichem Feedback	Sammeln Sie Endbenutzerfeedback, fügen Sie Entwickleranmerkungen hinzu, erstellen Sie Expertenüberprüfungssitzungen, und verwenden Sie dieses Feedback, um die Qualität Ihrer GenAI-App zu bewerten.

Ablaufverfolgung

MLflow Tracing bietet Observability und protokolliert die für die Auswertung und Überwachung erforderlichen Tracing-Daten.

Merkmal	BESCHREIBUNG
MLflow-Ablaufverfolgung	Umfassende Beobachtbarkeit für GenAI-Anwendungen, einschließlich komplexer agentenbasierter Systeme. Verfolgen Sie Eingaben, Ausgaben, Zwischenschritte und Metadaten, um ein vollständiges Bild davon zu erfahren, wie sich Ihre App verhält.
Was ist Nachverfolgung?	Einführung in die Konzepte der Ablaufverfolgung.
Überprüfen des Verhaltens und der Leistung Ihrer App	Durch die vollständige Sichtbarkeit der Ausführung können Sie Eingabeaufforderungen, Abrufe, Toolaufrufe, Antworten, Latenz und Kosten erfassen.
Beobachtbarkeit der Produktion	Verwenden Sie die gleiche Instrumentierung in Entwicklungs- und Produktionsumgebungen für eine konsistente Auswertung.
Erstellen von Auswertungsdatensätzen	Analysieren Sie Ablaufverfolgungen, um Qualitätsprobleme zu identifizieren, repräsentative Ablaufverfolgungen auszuwählen, Auswertungsdatensätze zu erstellen und Ihre Anwendung systematisch zu verbessern.
Verfolgungsintegrationen	Die MLflow-Verfolgung ist in viele Bibliotheken und Frameworks für die automatische Verfolgung integriert, mit der Sie sofortige Überwachbarkeit in Ihren Generative KI-Anwendungen mit minimalem Aufwand erzielen können.

Auswertung und Überwachung

Ersetzen Sie manuelle Tests durch automatisierte Auswertungen mit integrierten und benutzerdefinierten LLM-Richtern und Scorern, die mit menschlichem Fachwissen übereinstimmen und sowohl in der Entwicklung als auch in der Produktion angewendet werden können. Jede Produktionsinteraktion wird die Möglichkeit, mit integrierten Feedback- und Auswertungsworkflows zu verbessern.

Merkmal	BESCHREIBUNG
Bewerten und Überwachen von GenAI-Agenten	Übersicht über die Auswertung und Überwachung von Agents mit MLflow 3 auf Databricks.
LLM-Richter und Bewertungsrichter	MLflow 3 umfasst integrierte LLM-Bewertungskomponenten für Sicherheit, Relevanz, Korrektheit, Abrufqualität und mehr. Sie können auch benutzerdefinierte LLM-Richter und codebasierte Scorer für Ihre spezifischen Geschäftsanforderungen erstellen.
Auswertung	Führen Sie die Auswertung während der Entwicklung oder als Teil eines Releaseprozesses aus.
Produktionsüberprüfung	Überwachen Sie kontinuierlich eine Stichprobe des Produktionsverkehrs mithilfe von LLM-Richtern und Scorern.
Sammeln von menschlichem Feedback	Sammeln und verwenden Sie Feedback von Domänenexperten und Endbenutzern während der Entwicklung und während der Produktion zur kontinuierlichen Verbesserung.

Verwalten des GenAI-App-Lebenszyklus

Version, Nachverfolgen und Steuern Ihrer gesamten GenAI-Anwendung mit Verwaltungs- und Governancetools auf Unternehmensniveau.

Merkmal	BESCHREIBUNG
Anwendungsversionsverwaltung	Verfolgen Sie Code, Parameter und Auswertungsmetriken für jede Version.
Prompt Registry	Zentrale Verwaltung für Versionsverwaltung und Freigabe von Eingabeaufforderungen in Ihrer Organisation mit A/B-Testfunktionen und Unity Catalog-Integration.
Unternehmensintegration	Unity-Katalog. Einheitliche Governance für alle KI-Ressourcen mit Unternehmenssicherheits-, Zugriffssteuerungs- und Compliancefeatures. Datenintelligenz. Verbinden Sie Ihre GenAI-Daten mit Ihren Geschäftsdaten im Databricks Lakehouse und liefern Sie benutzerdefinierte Analysen an Ihre Geschäftsbeteiligten. Mosaik AI Agent dient. Stellen Sie Agents für die Produktion mit Skalierung und Betriebssicherheit bereit.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-26