Bereitstellen von Modellen mithilfe von Mosaik AI Model Serving

In diesem Artikel werden Mosaik AI Model Serving, die Databricks-Lösung für die Bereitstellung von KI- und ML-Modellen für echtzeitbasierte Bereitstellung und Batchableitung beschrieben.

Was ist Mosaik AI Model Serving?

Mosaik AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen von KI-Modellen für Echtzeit- und Batcheinschluss. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können.

Die Modellbereitstellung bietet einen hochverfügbaren Dienst mit niedriger Latenz für die Bereitstellung von Modellen. Der Dienst wird automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Diese Funktionalität verwendet serverloses Compute. Weitere Informationen finden Sie auf der Seite mit den Preisen für die Modellbereitstellung.

Model Serving bietet eine einheitliche REST-API und MLflow-Bereitstellungs-API für CRUD- und Abfrageaufgaben. Darüber hinaus stellt sie eine einzelne Benutzeroberfläche bereit, um alle Ihre Modelle und ihre jeweiligen Dienstendpunkte zu verwalten. Sie können auch direkt über SQL mithilfe von KI-Funktionen auf Modelle zugreifen, um die Integration in Analyseworkflows zu erleichtern.

KI-Funktionen und Modellbereitstellung sind eng für Batch-Ableitungsszenarien integriert. Sie können jede der aufgabenspezifischen KI-Funktionen oder ai-query in Ihren Batchrückschlusspipelines verwenden. Wenn Sie ein vorab bereitgestelltes Modell verwenden, das von Databricks gehostet und verwaltet wird, müssen Sie kein Modell konfigurieren, das Endpunkt selbst bedient.

Sehen Sie sich die folgenden Leitfäden an, um zu beginnen:

Informationen zum Durchführen von Batch-Inferenz finden Sie unter Einsatz von KI auf Daten mithilfe von Azure Databricks AI Functions.
Ein einführendes Lernprogramm zum Bereitstellen von benutzerdefinierten Modellen auf Azure Databricks in Echtzeit finden Sie unter Lernprogramm: Bereitstellen und Abfragen eines benutzerdefinierten Modells.
Ein Tutorial für den Einstieg, wie man ein Foundation-Modell auf Databricks für Echtzeit-Inferenzen abfragt, finden Sie unter Erste Schritte beim Abfragen von LLMs auf Databricks.

Modelle, die Sie bereitstellen können

Modellbereitstellung unterstützt Echtzeit- und Batch-Ableitung für die folgenden Modelltypen:

Benutzerdefinierte Modelle: Dies sind Python-Modelle, die im MLflow-Format verpackt sind. Sie können in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung registriert werden. Beispiele sind scikit-learn-, XGBoost-, PyTorch- und Hugging Face-Transformationsmodelle.
- Der Agent wird als benutzerdefiniertes Modell unterstützt. Siehe Bereitstellen eines Agents für generative KI-Anwendungen (Model Serving)
Basismodelle.
- Von Databricks gehostete Basismodelle wie Meta Llama. Diese Modelle sind mit Foundation Model-APIsverfügbar. Diese Modelle sind kuratierte Basismodellarchitekturen, die optimierte Rückschlüsse unterstützen. Basismodelle wie Meta-Llama-3.3-70B-Instruct, GTE-Large und Mistral-7B stehen für die sofortige Verwendung mit tokenbasierter Bezahlung zur Verfügung. Workloads, die Leistungsgarantien und optimierte Modellvarianten erfordern, können mit bereitgestelltem Durchsatz bereitgestellt werden.
- Außerhalb von Databricks gehostete Basismodelle wie GPT-4 von OpenAI. Auf diese Modelle kann über externe Modelle zugegriffen werden. Die Endpunkte, die diese Modelle bedienen, können zentral von Azure Databricks gesteuert werden, sodass Sie die Verwendung und Verwaltung verschiedener LLM-Anbieter wie OpenAI und Anthropic innerhalb Ihrer Organisation optimieren können.

Hinweis

Sie können mit unterstützten großen Sprachmodellen interagieren, indem Sie den KI-Playground verwenden. Der KI-Playground ist eine chatähnliche Umgebung, in der Sie LLMs testen, auffordern und vergleichen können. Diese Funktionalität ist in Ihrem Azure Databricks-Arbeitsbereich verfügbar.

Gründe für die Verwendung von Modellbereitstellung

Bereitstellen und Abfragen aller Modelle: Die Modellbereitstellung bietet eine einheitliche Schnittstelle, über die Sie alle Modelle an einem Ort verwalten und mit einer einzigen API abfragen können, unabhängig davon, ob sie in Databricks oder extern gehostet werden. Dieser Ansatz vereinfacht das Experimentieren mit sowie das Anpassen und Bereitstellen von Modellen in der Produktion über verschiedene Clouds und Anbieter hinweg.
Sicheres Anpassen von Modellen mit Ihren privaten Daten: Die Modellbereitstellung basiert auf einer Data Intelligence-Plattform und vereinfacht die Integration von Features und Einbettungen in Modelle durch native Integration in den Databricks Feature Store und die Mosaik KI-Vektorsuche. Für noch höhere Genauigkeit und besseres Kontextverständnis können Modelle mit geschützten Daten optimiert und mühelos in der Modellbereitstellung bereitgestellt werden.
Steuern und Überwachen von Modellen: Über die Benutzeroberfläche für die Bereitstellung können Sie alle Modellendpunkte, einschließlich derjenigen, die extern gehostet werden, zentral an einem Ort verwalten. Sie können Berechtigungen verwalten, Nutzungsgrenzwerte nachverfolgen und festlegen und die Qualität aller Arten von Modellen mithilfe AI-Gateway-überwachen. Auf diese Weise können Sie den Zugriff auf SaaS demokratisieren und LLMs innerhalb Ihrer Organisation öffnen sowie gleichzeitig sicherstellen, dass angemessene Schutzmaßnahmen vorhanden sind.
Reduzieren von Kosten mit optimierten Rückschlüssen und schneller Skalierung: Databricks hat eine Reihe von Optimierungen implementiert, um sicherzustellen, dass Sie den besten Durchsatz und möglichst geringe Wartezeiten für große Modelle erzielen. Die Endpunkte werden automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Überwachen Sie die Kosten für das Bereitstellen von Modellen.
- Für Workloads, die latenzempfindlich sind oder eine hohe Anzahl von Abfragen pro Sekunde umfassen, finden Sie unter Optimieren von Endpunkten für die Modellbereitstellung für die Produktion umfassende Optimierungsstrategien. Wenden Sie sich an Ihr Databricks-Kontoteam, um sicherzustellen, dass Ihr Arbeitsbereich für eine hohe Skalierbarkeit aktiviert ist.

Zuverlässigkeit und Sicherheit bei der Modellbereitstellung: Die Modellbereitstellung ist für latenzarme Nutzung mit Hochverfügbarkeit in der Produktion konzipiert und kann mehr als 25.000 Abfragen pro Sekunde mit einer Overheadwartezeit von weniger als 50 ms unterstützen. Die Bereitstellungsworkloads werden durch mehrere Sicherheitsebenen geschützt. Dadurch wird eine sichere und zuverlässige Umgebung auch für höchst vertrauliche Aufgaben sichergestellt. Sie können den Netzwerkzugriff auf Modellbereitstellungsendpunkte steuern, indem Sie Netzwerkrichtlinien konfigurieren. Siehe Verwalten von Netzwerkrichtlinien für die Steuerung des serverlosen Ausgangs.

Hinweis

Model Serving stellt keine Sicherheitspatches für vorhandene Modellimages bereit, da das Risiko einer Destabilisierung von Produktionsbereitstellungen besteht. Ein neues Modellimage, das aus einer neuen Modellversion erstellt wurde, enthält die neuesten Patches. Wenden Sie sich an Ihr Databricks-Kontoteam, um weitere Informationen zu erfahren.

Anforderungen

Registriertes Modell in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung.
Berechtigungen für die registrierten Modelle, wie unter Bereitstellen von Zugriffssteuerungslisten für Endpunkte beschrieben.
- MLflow 1.29 oder höher.
Wenn Sie Azure Private Link verwenden, um netzwerkbezogene Eingangsregeln zu respektieren, die für den Arbeitsbereich konfiguriert sind, wird Azure Private Link nur für Modellbereitstellungsendpunkte unterstützt, die den bereitgestellten Durchsatz oder Endpunkte verwenden, die benutzerdefinierte Modelle bedienen. Siehe Konfigurieren der privaten Konnektivität mit Azure-Ressourcen.
Arbeitsbereichsberechtigungen konfiguriert. Weitere Informationen finden Sie unter Verwalten von Berechtigungen.

Aktivieren der Modellbereitstellung für Ihren Arbeitsbereich

Es sind keine zusätzlichen Schritte erforderlich, um die Modellbereitstellung in Ihrem Arbeitsbereich zu aktivieren.

Einschränkungen und regionale Verfügbarkeit

Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung zu gewährleisten. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung. Wenn Sie Feedback zu diesen Grenzwerten oder einem Endpunkt in einer nicht unterstützten Region haben, wenden Sie sich an Ihr Databricks-Kontoteam.

Datenschutz im Modelldienst

Databricks nimmt die Datensicherheit ernst. Databricks weiß um die Bedeutung der Daten, die Sie mit Mosaic AI Model Serving analysieren, und implementiert die folgenden Sicherheitsmaßnahmen zum Schutz Ihrer Daten.

Jede Kundenanforderung an die Modellbereitstellung ist logisch isoliert, authentifiziert und autorisiert.
Mosaic AI Model Serving verschlüsselt alle ruhenden Daten (AES-256) und während der Übertragung (TLS 1.2+).

Für alle kostenpflichtigen Konten verwendet Mosaic AI Model Serving keine Benutzereingaben, die an den Dienst übermittelt wurden, oder Ausgaben des Dienstes, um Modelle zu trainieren oder Databricks-Dienste zu verbessern.

Für alle Mosaik AI Model Serving Workloads speichert Databricks Containerbuildprotokolle für bis zu dreißig (30) Tage und Metrikdaten für bis zu vierzehn (14) Tage.

Bei Databricks Foundation Model APIs kann Databricks im Rahmen der Bereitstellung des Dienstes Eingaben und Ausgaben vorübergehend verarbeiten und speichern, um Missbrauch oder schädliche Verwendungen zu verhindern, zu erkennen und einzudämmen. Ihre Eingaben und Ausgaben sind von denen anderer Kund*innen isoliert, werden bis zu dreißig (30) Tage lang in derselben Region wie Ihr Arbeitsbereich gespeichert und sind nur zugänglich, um Sicherheits- oder Missbrauchsprobleme zu erkennen und darauf zu reagieren.

Foundation Model APIs ist eine Databricks Designated Service, d. h. es hält sich an die Grenzen der Datenresidenz, wie sie von Databricks Geos implementiert werden.

Zusätzliche Ressourcen

Feedback

War diese Seite hilfreich?

Last updated on 2025-09-22

Freigeben über

Bereitstellen von Modellen mithilfe von Mosaik AI Model Serving

Was ist Mosaik AI Model Serving?

Modelle, die Sie bereitstellen können

Gründe für die Verwendung von Modellbereitstellung

Anforderungen

Aktivieren der Modellbereitstellung für Ihren Arbeitsbereich

Einschränkungen und regionale Verfügbarkeit

Datenschutz im Modelldienst

Zusätzliche Ressourcen

Feedback

Zusätzliche Ressourcen