Expressbereitstellungen für Modellbereitstellungsendpunkte

In diesem Artikel wird beschrieben, wie Sie Expressbereitstellungen für Ihre Modellbereitstellungsendpunkte verwenden. Express-Bereitstellungen verkürzen die Bereitstellungszeiten erheblich und sorgen dafür, dass die Modellbereitstellungsumgebung mit der Modelltrainingsumgebung identisch bleibt.

Note

Expressbereitstellungen wurden zuvor als serverlose optimierte Bereitstellungen bezeichnet.

Was sind Expressbereitstellungen?

Expressbereitstellungen nutzen die Vorteile von Paket- und Stagingmodellartefakten in serverlosen Notebookumgebungen während der Modellregistrierung, was zu einer beschleunigten Endpunktbereitstellung und konsistenten Umgebungen zwischen Training und Bereitstellung führt.

Dies unterscheidet sich von Nicht-Expressbereitstellungen, bei denen Modellartefakte und Umgebungen zur Bereitstellungszeit in Container verpackt werden. In solchen Fällen entspricht die Dienstumgebung möglicherweise nicht derjenigen, die bei der Modellschulung verwendet wurde.

Requirements

Express-Bereitstellungsendpunkte haben die gleichen Anforderungen wie das Modell, das Endpunkt bedient (siehe Anforderungen). Außerdem:

Das Modell muss ein benutzerdefiniertes Modell (nicht FMAPI) sein.
Das Modell muss mit Version 3 oder 4 in einem serverlosen Notizbuch protokolliert und registriert werden.
Das Modell muss protokolliert und mit mlflow>=3.1 und databricks-sdk>=0.102.0 registriert werden.
Das Modell muss im Unity-Katalog registriert sein. Die für die Bereitstellung verwendete Recheninstanz muss mit der Recheninstanz übereinstimmen, von der das Modell registriert wurde. Sie können ein Modell aus einem regulären serverlosen Notebook registrieren, um es auf der CPU bereitzustellen, oder aus serverless GPU compute, um es auf der GPU bereitzustellen.
Die maximale Umgebungsgröße des Modells beträgt 200 GB.

Note

Um ein benutzerdefiniertes LLM mithilfe von GPU-Compute mit Express-Bereitstellungen bereitzustellen, siehe Benutzerdefinierte LLMs mit Custom Model Serving bereitstellen.

Verwenden von Expressbereitstellungen

Verwenden Sie beim Protokollieren und Registrieren eines Modells ein serverloses Notizbuch mit Client 3 oder 4 und mlflow>=3.1.

Informationen zum Anpassen der Clientversion der serverlosen Umgebung finden Sie unter Konfigurieren der serverlosen Umgebung.

Legen Sie dann beim Registrieren eines Modells den env_pack Parameter mit den gewünschten Werten fest.

import mlflow
from mlflow.utils.env_pack import EnvPackConfig

mlflow.register_model(
    model_info.model_uri,
    model_name,
    env_pack=EnvPackConfig(name="databricks_model_serving")
)

Indem Sie den env_pack-Parameter hinzufügen, werden die Modellartefakte gepackt und die serverlose Notebookumgebung während der Modellregistrierung für die spätere Verwendung bei der Bereitstellung vorbereitet. Dies kann im Vergleich zur Registrierung des Modells ohne env_packweitere Zeit dauern.

EnvPackConfig verfügt über einen Parameter install_dependencies (True standardmäßig), der bestimmt, ob die Abhängigkeiten des Modells in der aktuellen Umgebung installiert sind, um zu bestätigen, dass die Umgebung gültig ist. Wenn Sie diesen Schritt überspringen möchten, legen Sie den Wert auf False.

Note

Endpunkte in Arbeitsbereichen ohne Internetzugriff oder Endpunkte mit Abhängigkeiten von benutzerdefinierten Bibliotheken können fehlschlagen, wenn install_dependencies auf True eingestellt ist. In diesen Fällen install_dependencies auf False setzen.

Sie können auch EnvPackConfig(...) durch "databricks_model_serving" als Abkürzung ersetzen. Dies entspricht EnvPackConfig(name="databricks_model_serving", install_dependencies = True).

Nachdem das Modell registriert wurde, können Sie es in der Modellbereitstellung bereitstellen. Beachten Sie, dass die Bereitstellungszeit reduziert wurde und die Ereignisprotokolle keinen Containerbuild mehr anzeigen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-07-10

Expressbereitstellungen für Modellbereitstellungsendpunkte

Was sind Expressbereitstellungen?

Requirements

Verwenden von Expressbereitstellungen

Feedback

Zusätzliche Ressourcen