Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
In diesem Artikel wird beschrieben, wie Sie die Routenoptimierung bei Ihren Modellbereitstellungsendpunkten oder Featurebereitstellungsendpunkten aktivieren. Durch die Routenoptimierung für Bereitstellungsendpunkte kann die Overheadlatenz drastisch gesenkt werden, was erhebliche Verbesserungen des vom Endpunkt unterstützten Durchsatzes ermöglicht.
Routenoptimierte Endpunkte werden anders als nicht routenoptimierte Endpunkte abgefragt, einschließlich der Verwendung einer anderen URL und der Authentifizierung mit OAuth-Tokens. Ausführliche Informationen finden Sie unter Abfrage mit routingoptimierten Endpunkten.
Was ist Routenoptimierung?
Wenn Sie die Routenoptimierung auf einem Endpunkt aktivieren, verbessert Databricks Model Serving den Netzwerkpfad für Ableitungsanforderungen, was zu einer schnelleren, direkteren Kommunikation zwischen Ihrem Client und dem Modell führt. Dieses optimierte Routing entsperrt höhere Abfragen pro Sekunde (QPS) im Vergleich zu nicht optimierten Endpunkten und bietet stabilere und niedrigere Latenzen für Ihre Anwendungen.
Tipp
Die Routenoptimierung ist eine von mehreren Strategien zur Optimierung von Produktionsworkloads. Eine umfassende Anleitung zu Optimierungstechniken finden Sie unter Optimize Model Serving Endpunkte für die Produktion.
Anforderungen
- Die Routenoptimierung für Modellbereitstellungsendpunkte hat dieselben Anforderungen wie nicht routenoptimierte Modellbereitstellungsendpunkte.
- Die Routenoptimierung bei Featurebereitstellungsendpunkten hat dieselben Anforderungen wie bei nicht routenoptimierten Featurebereitstellungsendpunkten.
Aktivieren der Routenoptimierung für einen Modellbereitstellungsendpunkt
Serving-Benutzeroberfläche
Sie können die Routenoptimierung aktivieren, wenn Sie einen Modellbereitstellungsendpunkt mithilfe der Serving-Benutzeroberfläche erstellen. Sie können die Routenoptimierung nur während der Endpunkterstellung aktivieren, sie können vorhandene Endpunkte nicht so aktualisieren, dass sie optimiert werden.
- Klicken Sie in der Seitenleiste auf "Bedienung", um die Bedienungsoberfläche anzuzeigen.
- Klicken Sie auf "Bereitstellungsendpunkt erstellen".
- Wählen Sie im Abschnitt "Routenoptimierung " die Option "Routenoptimierung aktivieren" aus.
- Nachdem Ihr Endpunkt erstellt wurde, sendet Databricks Ihnen eine Benachrichtigung darüber, was zum Abfragen eines routenoptimierten Endpunkts erforderlich ist.
REST-API
Geben Sie den Parameter route_optimized während der Erstellung des Modellbereitstellungsendpunkts an, um den Bereitstellungsendpunkt für die Routenoptimierung zu konfigurieren. Sie können diesen Parameter nur während der Endpunkterstellung angeben. Das Aktualisieren vorhandener Endpunkte für die Routenoptimierung ist nicht möglich.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[{
"entity_name": "ads1",
"entity_version": "1",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true,
}],
},
"route_optimized": true
}
Python
Wenn Sie Python verwenden, können Sie das folgende Notebook verwenden, um einen routenoptimierten Bereitstellungsendpunkt zu erstellen.
Erstellen eines routenoptimierten Bereitstellungsendpunkts mithilfe eines Python-Notebooks
Databricks SDK
Um den Serving-Endpunkt für die Routenoptimierung mithilfe des Databricks SDK zu konfigurieren, geben Sie den Parameter bei der Erstellung des route_optimized-Endpunkts an. Sie können diesen Parameter nur während der Endpunkterstellung angeben. Das Aktualisieren vorhandener Endpunkte für die Routenoptimierung ist nicht möglich.
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput
workspace = WorkspaceClient()
workspace.serving_endpoints.create(
name="my-serving-endpoint",
config = EndpointCoreConfigInput(
served_entities=[
ServedEntityInput(
entity_name="main.default.my-served-entity",
scale_to_zero_enabled=True,
workload_size="Small"
)
]
),
route_optimized=True
)
Aktivieren der Routenoptimierung für einen Featurebereitstellungsendpunkt
Geben Sie im Feld entity_name für Anforderungen zur Erstellung von Bereitstellungsendpunkten den vollständigen Namen der Featurespezifikation an, um die Routenoptimierung für die Feature- und Funktionsbereitstellung zu verwenden.
entity_version wird für FeatureSpecs nicht benötigt.
POST /api/2.0/serving-endpoints
{
"name": "my-endpoint",
"config":
{
"served_entities":
[
{
"entity_name": "catalog_name.schema_name.feature_spec_name",
"workload_type": "CPU",
"workload_size": "Small",
"scale_to_zero_enabled": true
}
]
},
"route_optimized": true
}
Begrenzungen
- Die Routenoptimierung ist nur für benutzerdefinierte Modellbereitstellungsendpunkte und Featurebereitstellungsendpunkte verfügbar. Die Bereitstellung von Endpunkten, die Foundation Model-APIs oder externe Modelle verwenden, werden nicht unterstützt.
- Interne OAuth-Token von Databricks sind die einzige unterstützte Authentifizierungsoption für die Routenoptimierung. Persönliche Zugriffstokens werden nicht unterstützt.