Modellbereitstellung mit serverloser Echtzeit-Inferenz

Artikel
04/11/2024

Wichtig

Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert. Die in diesem Inhalt erwähnten Produkte, Dienste oder Technologien werden nicht mehr unterstützt.
Die Anleitung in diesem Artikel gilt für die Vorschauversion der Modellbereitstellungsfunktion, ehemals Serverless Real-Time Inference. Databricks empfiehlt, Ihr Modell zur Bereitstellung von Workflows auf die allgemein verfügbare Funktionalität zu migrieren. Weitere Informationen finden Sie unter Modellbereitstellung mit Azure Databricks.

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird die Modellbereitstellung mit serverlosem Azure Databricks-Echtzeit-Inferenz beschrieben, einschließlich der Vorteile und Einschränkungen im Vergleich zur Legacy-MLflow-Modellbereitstellung.

Der serverlose Echtzeit-Inferenz verarbeitet Ihre Machine Learning-Modelle mithilfe von MLflow und stellt sie als REST-API-Endpunkte bereit. Diese Funktionalität verwendet serverloses Computing, was bedeutet, dass die Endpunkte und die zugehörigen Compute-Ressourcen in ihrem Databricks-Konto verwaltet und ausgeführt werden. Weitere Informationen finden Sie auf der Seite Serverless Real-Time Inference Pricing.

Die Legacy-MLflow-Modellbereitstellung verwendet ein Einzelknotencluster, das unter Ihrem eigenen Konto innerhalb der so genannten klassischen Compute-Ebene ausgeführt wird. Diese Datenebene umfasst das virtuelle Netzwerk und die zugehörigen Compute-Ressourcen wie z. B. Cluster für Notebooks und Aufträge, SQL-Warehouses „Pro“ und „Klassisch“ und Endpunkte für die klassische Modellbereitstellung.

Was spricht für die Verwendung des serverlosen Echtzeitrückschlusses?

Der serverlose Echtzeitrückschluss bietet Folgendes:

Möglichkeit, einen Endpunkt mit einem Klick zu starten: Databricks bereitet automatisch eine produktionsbereite Umgebung für Ihr Modell vor und bietet serverlose Konfigurationsoptionen für Berechnungen.
Hohe Verfügbarkeit und Skalierbarkeit: Der serverlose Echtzeitrückschluss ist für die Verwendung in der Produktion gedacht und kann bis zu 3.000 Abfragen pro Sekunde (QPS) unterstützen. Endpunkte des serverlosen Echtzeitrückschlusses skalieren automatisch hoch und herunter, d. h. die Endpunkte passen sich automatisch an die Menge der Bewertungsanforderungen an.
Dashboards: Verwenden Sie das integrierte Dashboard des serverlosen Echtzeitrückschlusses, um den Zustand Ihrer Modellendpunkte anhand von Metriken wie QPS, Latenz und Fehlerrate zu überwachen.
Feature Store-Integration: Wenn Ihr Modell mit Features aus dem Databricks Feature Store trainiert wird, wird das Modell mit Feature-Metadaten gepackt. Wenn Sie Ihren Onlinespeicher konfigurieren, werden diese Funktionen in Echtzeit integriert, wenn Bewertungsanfragen eingehen.

Einschränkungen

Während sich dieser Dienst in der Vorschau befindet, gelten die folgenden Einschränkungen:

Begrenzung der Nutzdatengröße auf 16 MB pro Anforderung.
Standardbegrenzung von 200 QPS für Bewertungsanforderungen pro registriertem Arbeitsbereich. Sie können dieses Limit auf bis zu 3000 QPS pro Arbeitsbereich erhöhen, indem Sie sich an Ihren Databricks-Supportkontakt wenden.
Bestmögliche Unterstützung mit einer Wartezeit von weniger als 100 Millisekunden und Verfügbarkeit.
Die Modellbereitstellung unterstützt keine Initskripts.

Endpunkte des serverlosen Echtzeitrückschlusses sind für den eingehenden Datenverkehr zum Internet hin offen, es sei denn, im Arbeitsbereich ist eine Liste zugelassener IP-Adressen aktiviert, die dann auch für die Endpunkte gilt.

Regionale Verfügbarkeit

Der serverlose Echtzeit-Inferenz ist in den folgenden Azure-Regionen verfügbar:

eastus2
westus
eastus
westeurope
centralus
northcentralus
northeurope

Erwartete Staging- und Produktionszeit

Der Übergang eines Modells vom Staging in die Produktion nimmt Zeit in Anspruch. Die Bereitstellung einer neu registrierten Modellversion umfasst die Erstellung eines Modellcontainerimages und die Bereitstellung des Modellendpunkts. Dieser Vorgang kann ~5 Minuten dauern.

Databricks führt eine Aktualisierung ohne Ausfallzeit der Endpunkte /staging und /production durch, indem die bestehende Modellbereitstellung aufrecht erhalten wird, bis die neue bereit ist. Auf diese Weise wird sichergestellt, dass es keine Unterbrechung für die verwendeten Modellendpunkte gibt.

Wenn die Modellberechnung länger als 60 Sekunden dauert, tritt ein Timeout für die Anforderungen auf. Wenn Sie glauben, dass Ihre Modellberechnung länger als 60 Sekunden dauert, wenden Sie sich an Ihren Databricks-Supportkontakt.

Voraussetzungen

Wichtig

Während der öffentlichen Vorschauphase müssen Sie sich an Ihren Databricks-Supportkontakt wenden, um den serverlosen Echtzeitrückschluss für Ihren Arbeitsbereich zu aktivieren.

Bevor Sie Endpunkte für den serverlosen Echtzeitrückschluss erstellen können, müssen Sie sie in Ihrem Arbeitsbereich aktivieren. Siehe Aktivieren von Endpunkten des serverlosen Echtzeitrückschlusses für die Modellbereitstellung.

Nachdem Endpunkte des serverlosen Echtzeitrückschlusses in Ihrem Arbeitsbereich aktiviert wurden, benötigen Sie die folgenden Berechtigungen zum Erstellen von Endpunkten für die Modellbereitstellung:

Berechtigungen für die Clustererstellung im Workspace.
Berechtigungen KANN PRODUKTIONSVERSIONEN VERLWALTEN für das registrierte Modell, um es bereitzustellen.

Modellbereitstellung mit serverloser Echtzeit-Inferenz

Was spricht für die Verwendung des serverlosen Echtzeitrückschlusses?

Einschränkungen

Regionale Verfügbarkeit

Erwartete Staging- und Produktionszeit

Voraussetzungen

Zusätzliche Ressourcen

Feedback

Feedback

Zusätzliche Ressourcen