Teilen über


Routenoptimierung für Bereitstellungsendpunkte

In diesem Artikel wird beschrieben, wie Sie die Routenoptimierung bei Ihren Modellbereitstellungsendpunkten oder Featurebereitstellungsendpunkten aktivieren. Durch die Routenoptimierung für Bereitstellungsendpunkte kann die Overheadlatenz drastisch gesenkt werden, was erhebliche Verbesserungen des vom Endpunkt unterstützten Durchsatzes ermöglicht.

Routenoptimierte Endpunkte werden anders als nicht routenoptimierte Endpunkte abgefragt, einschließlich der Verwendung einer anderen URL und der Authentifizierung mit OAuth-Tokens. Ausführliche Informationen finden Sie unter Abfrage mit routingoptimierten Endpunkten.

Was ist Routenoptimierung?

Wenn Sie die Routenoptimierung auf einem Endpunkt aktivieren, verbessert Databricks Model Serving den Netzwerkpfad für Ableitungsanforderungen, was zu einer schnelleren, direkteren Kommunikation zwischen Ihrem Client und dem Modell führt. Dieses optimierte Routing entsperrt höhere Abfragen pro Sekunde (QPS) im Vergleich zu nicht optimierten Endpunkten und bietet stabilere und niedrigere Latenzen für Ihre Anwendungen.

Tipp

Die Routenoptimierung ist eine von mehreren Strategien zur Optimierung von Produktionsworkloads. Eine umfassende Anleitung zu Optimierungstechniken finden Sie unter Optimize Model Serving Endpunkte für die Produktion.

Anforderungen

Aktivieren der Routenoptimierung für einen Modellbereitstellungsendpunkt

Serving-Benutzeroberfläche

Sie können die Routenoptimierung aktivieren, wenn Sie einen Modellbereitstellungsendpunkt mithilfe der Serving-Benutzeroberfläche erstellen. Sie können die Routenoptimierung nur während der Endpunkterstellung aktivieren, sie können vorhandene Endpunkte nicht so aktualisieren, dass sie optimiert werden.

  1. Klicken Sie in der Seitenleiste auf "Bedienung", um die Bedienungsoberfläche anzuzeigen.
  2. Klicken Sie auf "Bereitstellungsendpunkt erstellen".
  3. Wählen Sie im Abschnitt "Routenoptimierung " die Option "Routenoptimierung aktivieren" aus.
  4. Nachdem Ihr Endpunkt erstellt wurde, sendet Databricks Ihnen eine Benachrichtigung darüber, was zum Abfragen eines routenoptimierten Endpunkts erforderlich ist.

Erstellen eines Modellbereitstellungsendpunkts

REST-API

Geben Sie den Parameter route_optimized während der Erstellung des Modellbereitstellungsendpunkts an, um den Bereitstellungsendpunkt für die Routenoptimierung zu konfigurieren. Sie können diesen Parameter nur während der Endpunkterstellung angeben. Das Aktualisieren vorhandener Endpunkte für die Routenoptimierung ist nicht möglich.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Python

Wenn Sie Python verwenden, können Sie das folgende Notebook verwenden, um einen routenoptimierten Bereitstellungsendpunkt zu erstellen.

Erstellen eines routenoptimierten Bereitstellungsendpunkts mithilfe eines Python-Notebooks

Notizbuch abrufen

Databricks SDK

Um den Serving-Endpunkt für die Routenoptimierung mithilfe des Databricks SDK zu konfigurieren, geben Sie den Parameter bei der Erstellung des route_optimized-Endpunkts an. Sie können diesen Parameter nur während der Endpunkterstellung angeben. Das Aktualisieren vorhandener Endpunkte für die Routenoptimierung ist nicht möglich.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

workspace.serving_endpoints.create(
  name="my-serving-endpoint",
  config = EndpointCoreConfigInput(
    served_entities=[
    ServedEntityInput(
        entity_name="main.default.my-served-entity",
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  ),
  route_optimized=True
)

Aktivieren der Routenoptimierung für einen Featurebereitstellungsendpunkt

Geben Sie im Feld entity_name für Anforderungen zur Erstellung von Bereitstellungsendpunkten den vollständigen Namen der Featurespezifikation an, um die Routenoptimierung für die Feature- und Funktionsbereitstellung zu verwenden. entity_version wird für FeatureSpecs nicht benötigt.


POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

Begrenzungen

  • Die Routenoptimierung ist nur für benutzerdefinierte Modellbereitstellungsendpunkte und Featurebereitstellungsendpunkte verfügbar. Die Bereitstellung von Endpunkten, die Foundation Model-APIs oder externe Modelle verwenden, werden nicht unterstützt.
  • Interne OAuth-Token von Databricks sind die einzige unterstützte Authentifizierungsoption für die Routenoptimierung. Persönliche Zugriffstokens werden nicht unterstützt.

Weitere Ressourcen