MLflow 3 für GenAI

2025-06-27

Auf dieser Seite wird beschrieben, wie MLflow 3 für GenAI, integriert mit der Databricks-Plattform, Ihnen beim Erstellen von GenAI-Apps auf Produktionsniveau hilft.

Herkömmliche Software- und ML-Tests werden nicht für die Freiformsprache von GenAI entwickelt, was es Teams schwer macht, die Qualität zu messen und zu verbessern.

MLflow 3 löst dies durch die Kombination von KI-basierten Metriken, die die GenAI-Qualität zuverlässig messen, mit umfassender Verfolgungsbeobachtbarkeit, sodass Sie die Qualität während des gesamten Anwendungslebenszyklus messen, verbessern und überwachen können.

Hinweis

Die Agentauswertung ist in managed MLflow 3 integriert. Die Agent Evaluation SDK-Methoden werden jetzt über das mlflow[databricks]>=3.1 SDK verfügbar gemacht. Lesen Sie den Migrationsleitfaden , um Ihren MLflow 2- und Agent Evaluation-Code auf MLflow 3 SDKs zu aktualisieren.

Beobachten und debuggen von GenAI-Apps mit Tracing

Mit der Ablaufverfolgung können Sie genau sehen, was Ihre GenAI-Anwendung mit umfassender Observierbarkeit tut, die jeden Schritt der Ausführung erfasst.

Einzeilige Instrumentierung für 20+ Bibliotheken einschließlich OpenAI, LangChain, LlamaIndex, Anthropic und DSPy
Vollständige Ausführungssicht – Eingabeaufforderungen, Abrufe, Toolaufrufe, Antworten, Latenz und Kosten
Produktionsbereit - gleiche Instrumentierung arbeitet in Entwicklung und Produktion
OpenTelemetry-kompatibel – Abläufe überall exportieren, vollständigen Datenbesitz bewahren

# Just add one line to capture everything
mlflow.autolog()

# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!

Ablauf verfolgen Zusammenfassung

Automatisierte Qualitätsbewertung von GenAI-Apps

Ersetzen Sie manuelle Tests durch automatisierte Auswertungen mithilfe von LLM-Richtern, die mit menschlichem Fachwissen übereinstimmen und sowohl in der Entwicklung als auch in der Produktion angewendet werden können.

Vordefinierte Richter

Sicherheit – Erkennen schädlicher oder toxischer Inhalte
Halluzination & Geerdetheit – stellen Sie sicher, dass Antworten am abgerufenen Kontext haften
Relevanz – Überprüfen der Antworten auf Benutzeranforderungen
Korrektheit – Verifizierung, dass Antworten die gleichen Fakten wie die Ground-Truth-Antworten liefern
Abrufqualität – Messen, ob Ihre RAG die richtigen Informationen findet

Benutzerdefinierte Richter

Maßgeschneidert auf Ihr Unternehmen – erstellen Sie Richter, die Ihre spezifischen Anforderungen erzwingen
Ausrichtung mit Experten – Richter trainieren, um den Erwartungen Ihrer Experten auf dem Gebiet gerechtz zu werden

Umwandeln von Produktionsdaten in Verbesserungen

Jede Produktionsinteraktion wird zu einer Gelegenheit, sich durch integrierte Feedback- und Bewertungsworkflows zu verbessern.

Experten-Feedback-Sammlung

Überprüfung und Bezeichnung – Unternehmensbeteiligte und Experten können Bewertungen, Korrekturen oder Richtlinien für Produktionsablaufverfolgungen überprüfen und bereitstellen, ohne Code zu schreiben
Livetests – SMEs chatten mit Ihrer App und geben sofortiges Feedback

Schließen der Schleife zwischen Entwicklung und Produktion

Auswertungsdatensätze aus der Produktion – Problematische Traces in Testfälle umwandeln

End-User Feedback

Feedback sammeln – Daumen hoch/runter und Kommentare programmgesteuert aus Ihrer bereitgestellten App erfassen
Verknüpfung zu Ablaufverfolgungen – Debuggen von negativem Feedback mit vollständigem Ausführungskontext

Auswertungsvergleich

Verwalten des GenAI-Anwendungslebenszyklus

Versionieren, nachverfolgen und verwalten Sie Ihre gesamte GenAI-Anwendung mit Unternehmenslebenszyklus-Management.

Anwendungsversionsverwaltung

LoggedModels – Code, Parameter und Auswertungsmetrik für jede Version nachverfolgen
Vollständige Übersicht – Verknüpfung von Ablaufverfolgungen, Auswertungen und Feedback mit spezifischen Versionen

Prompt Registry (In Kürze verfügbar)

Zentrale Verwaltung – Versionierung und Verteilung von Eingabeaufforderungen in Ihrer Organisation
A/B-Tests – Bereitstellen mehrerer Eingabeaufforderungsversionen ohne Codeänderungen
Unity Catalog-Integration – Unternehmens-Governance für Ihre Prompts

Unternehmensintegration

Unity-Katalog – einheitliche Governance für alle KI-Ressourcen
Data Intelligence – verbinden Sie Ihre GenAI-Daten mit Ihren Geschäftsdaten im Databricks Lakehouse und liefern benutzerdefinierte Analysen an Ihre Geschäftsbeteiligten.
Mosaic AI Agent Serving – Agents mit Skalierung und betrieblicher Strenge in die Produktion bereitstellen

Beginnen Sie mit dem Erstellen besserer GenAI-Anwendungen

:::tip Schnellstart Bereit, Ihre erste Anwendung zu instrumentieren Mit unseren Schnellstartanleitungen sind Sie in wenigen Minuten startklar.

Erste Schritte →

Wählen Sie Ihren Pfad aus:

Databricks-Notizbuch – Starten in einer verwalteten Umgebung
Lokale IDE - Entwickeln auf Ihrem Computer :::

Warum Teams MLflow 3 für GenAI auswählen

Unified Platform
Alles, was Sie an einem Ort benötigen – vom Entwicklungsdebugging bis zur Produktionsüberwachung.

Offen und flexibel
Open-Source-Foundation ohne Anbietersperrung. Verwenden Sie jeden LLM-Anbieter, ein beliebiges Framework.

Enterprise Ready
Basiert auf der Databricks-Plattform mit Unternehmenssicherheit, Skalierung und Governance.

Bewährte Ergebnisse
Treten Sie Tausenden von Organisationen bei, die GenAI-Produktionsanwendungen mit MLflow erstellen.

Führen Sie den ersten Schritt aus. Folgen Sie unserem Schnellstarthandbuch und sehen Sie die Ausführung Ihrer GenAI-Anwendung in Minuten.