Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Auf dieser Seite wird beschrieben, wie MLflow 3 für GenAI, integriert mit der Databricks-Plattform, Ihnen beim Erstellen von GenAI-Apps auf Produktionsniveau hilft.
Herkömmliche Software- und ML-Tests werden nicht für die Freiformsprache von GenAI entwickelt, was es Teams schwer macht, die Qualität zu messen und zu verbessern.
MLflow 3 löst dies durch die Kombination von KI-basierten Metriken, die die GenAI-Qualität zuverlässig messen, mit umfassender Verfolgungsbeobachtbarkeit, sodass Sie die Qualität während des gesamten Anwendungslebenszyklus messen, verbessern und überwachen können.
Hinweis
Die Agentauswertung ist in managed MLflow 3 integriert. Die Agent Evaluation SDK-Methoden werden jetzt über das mlflow[databricks]>=3.1
SDK verfügbar gemacht. Lesen Sie den Migrationsleitfaden , um Ihren MLflow 2- und Agent Evaluation-Code auf MLflow 3 SDKs zu aktualisieren.
Beobachten und debuggen von GenAI-Apps mit Tracing
Mit der Ablaufverfolgung können Sie genau sehen, was Ihre GenAI-Anwendung mit umfassender Observierbarkeit tut, die jeden Schritt der Ausführung erfasst.
- Einzeilige Instrumentierung für 20+ Bibliotheken einschließlich OpenAI, LangChain, LlamaIndex, Anthropic und DSPy
- Vollständige Ausführungssicht – Eingabeaufforderungen, Abrufe, Toolaufrufe, Antworten, Latenz und Kosten
- Produktionsbereit - gleiche Instrumentierung arbeitet in Entwicklung und Produktion
- OpenTelemetry-kompatibel – Abläufe überall exportieren, vollständigen Datenbesitz bewahren
# Just add one line to capture everything
mlflow.autolog()
# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!
Automatisierte Qualitätsbewertung von GenAI-Apps
Ersetzen Sie manuelle Tests durch automatisierte Auswertungen mithilfe von LLM-Richtern, die mit menschlichem Fachwissen übereinstimmen und sowohl in der Entwicklung als auch in der Produktion angewendet werden können.
Vordefinierte Richter
- Sicherheit – Erkennen schädlicher oder toxischer Inhalte
- Halluzination & Geerdetheit – stellen Sie sicher, dass Antworten am abgerufenen Kontext haften
- Relevanz – Überprüfen der Antworten auf Benutzeranforderungen
- Korrektheit – Verifizierung, dass Antworten die gleichen Fakten wie die Ground-Truth-Antworten liefern
- Abrufqualität – Messen, ob Ihre RAG die richtigen Informationen findet
Benutzerdefinierte Richter
- Maßgeschneidert auf Ihr Unternehmen – erstellen Sie Richter, die Ihre spezifischen Anforderungen erzwingen
- Ausrichtung mit Experten – Richter trainieren, um den Erwartungen Ihrer Experten auf dem Gebiet gerechtz zu werden
Umwandeln von Produktionsdaten in Verbesserungen
Jede Produktionsinteraktion wird zu einer Gelegenheit, sich durch integrierte Feedback- und Bewertungsworkflows zu verbessern.
Experten-Feedback-Sammlung
- Überprüfung und Bezeichnung – Unternehmensbeteiligte und Experten können Bewertungen, Korrekturen oder Richtlinien für Produktionsablaufverfolgungen überprüfen und bereitstellen, ohne Code zu schreiben
- Livetests – SMEs chatten mit Ihrer App und geben sofortiges Feedback
Schließen der Schleife zwischen Entwicklung und Produktion
- Auswertungsdatensätze aus der Produktion – Problematische Traces in Testfälle umwandeln
End-User Feedback
- Feedback sammeln – Daumen hoch/runter und Kommentare programmgesteuert aus Ihrer bereitgestellten App erfassen
- Verknüpfung zu Ablaufverfolgungen – Debuggen von negativem Feedback mit vollständigem Ausführungskontext
Verwalten des GenAI-Anwendungslebenszyklus
Versionieren, nachverfolgen und verwalten Sie Ihre gesamte GenAI-Anwendung mit Unternehmenslebenszyklus-Management.
Anwendungsversionsverwaltung
- LoggedModels – Code, Parameter und Auswertungsmetrik für jede Version nachverfolgen
- Vollständige Übersicht – Verknüpfung von Ablaufverfolgungen, Auswertungen und Feedback mit spezifischen Versionen
Prompt Registry (In Kürze verfügbar)
- Zentrale Verwaltung – Versionierung und Verteilung von Eingabeaufforderungen in Ihrer Organisation
- A/B-Tests – Bereitstellen mehrerer Eingabeaufforderungsversionen ohne Codeänderungen
- Unity Catalog-Integration – Unternehmens-Governance für Ihre Prompts
Unternehmensintegration
- Unity-Katalog – einheitliche Governance für alle KI-Ressourcen
- Data Intelligence – verbinden Sie Ihre GenAI-Daten mit Ihren Geschäftsdaten im Databricks Lakehouse und liefern benutzerdefinierte Analysen an Ihre Geschäftsbeteiligten.
- Mosaic AI Agent Serving – Agents mit Skalierung und betrieblicher Strenge in die Produktion bereitstellen
Beginnen Sie mit dem Erstellen besserer GenAI-Anwendungen
:::tip Schnellstart Bereit, Ihre erste Anwendung zu instrumentieren Mit unseren Schnellstartanleitungen sind Sie in wenigen Minuten startklar.
Wählen Sie Ihren Pfad aus:
- Databricks-Notizbuch – Starten in einer verwalteten Umgebung
- Lokale IDE - Entwickeln auf Ihrem Computer :::
Warum Teams MLflow 3 für GenAI auswählen
Unified Platform
Alles, was Sie an einem Ort benötigen – vom Entwicklungsdebugging bis zur Produktionsüberwachung.
Offen und flexibel
Open-Source-Foundation ohne Anbietersperrung. Verwenden Sie jeden LLM-Anbieter, ein beliebiges Framework.
Enterprise Ready
Basiert auf der Databricks-Plattform mit Unternehmenssicherheit, Skalierung und Governance.
Bewährte Ergebnisse
Treten Sie Tausenden von Organisationen bei, die GenAI-Produktionsanwendungen mit MLflow erstellen.
Führen Sie den ersten Schritt aus. Folgen Sie unserem Schnellstarthandbuch und sehen Sie die Ausführung Ihrer GenAI-Anwendung in Minuten.