Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Public Preview.
Standardmäßig unterstützen Standardendpunkte 20 bis 200 QPS je nach Indexgröße. Echtzeitanwendungen wie Suchleisten, Empfehlungssysteme und Entitätsabgleich erfordern häufig 100 bis 1000 QPS. Nur auf Standardendpunkten können Sie einen Ziel-QPS festlegen. Databricks stellt die Infrastruktur so bereit, dass sie diesem Durchsatzniveau bestmöglich entspricht (nach bestem Bemühen, ohne Gewähr).
Von Bedeutung
Das Festlegen eines Ziel-QPS bietet zusätzliche Kapazität, wodurch die Kosten des Endpunkts erhöht werden. Sie werden für diese zusätzliche Kapazität berechnet, unabhängig vom tatsächlichen Abfragedatenverkehr. Die Durchsatzskalierung erfolgt nach bestem Bemühen und ist während der Public Preview nicht garantiert.
Verwenden Sie hohe QPS in folgenden Fällen:
- Für Ihre Anwendung sind mehr als 50 QPS dauerhafter Durchsatz erforderlich.
- Sie erhalten 429 (Zu viele Anforderungen) Fehler bei normaler Auslastung.
- Die Latenz degradiert, wenn der Datenverkehr ansteigt, selbst wenn die durchschnittliche Auslastung niedrig erscheint.
Anforderungen
- High QPS ist nur für Standardendpunkte verfügbar. Speicheroptimierte Endpunkte werden nicht unterstützt.
- Verwenden Sie die Dienstprinzipalauthentifizierung (OAuth) für Produktionsworkloads mit hoher QPS-Auslastung. Der Datenverkehr von Dienstprinzipalen wird über leistungsoptimierte Netzwerke geleitet, die für Workloads mit hoher QPS ausgelegt sind. Persönliche Zugriffstoken (PATs) laufen über Netzwerke mit einem auf einige Dutzend QPS beschränkten Durchsatz – für Prototypen geeignet, nicht für den Produktiveinsatz. Siehe Verwenden von Dienstprinzipalen mit OAuth-Token.
Ziel-QPS konfigurieren
Legen Sie eine Ziel-QPS fest, wenn Sie einen neuen Endpunkt erstellen oder einen vorhandenen aktualisieren. Die zusätzliche Kapazität, die erforderlich ist, um den Zieldurchsatz optimal abzugleichen, wird automatisch bereitgestellt. In der öffentlichen Vorschau erfolgt die Durchsatzskalierung nach bestem Bemühen und wird nicht garantiert: Die tatsächliche QPS hängt von Ihrer Indexgröße, der Vektordimensionalität, der Abfragekomplexität und der Verwendung von Filtern ab.
Databricks UI
Beim Erstellen eines neuen Endpunkts:
Klicken Sie in der linken Seitenleiste auf Compute.
Klicken Sie auf die Registerkarte " Vektorsuche ", und klicken Sie auf " Endpunkt erstellen".
Geben Sie unter "Erweiterte Einstellungen" den Ziel-QPS-Wert ein.
Beim Aktualisieren eines vorhandenen Endpunkts:
Navigieren Sie zur Endpunktdetailseite.
Klicken Sie im rechten Bereich neben Ziel-QPS auf das
Geben Sie den neuen Wert ein, und klicken Sie auf "Speichern".
Python SDK
from databricks.vector_search.client import VectorSearchClient
client = VectorSearchClient()
# Create a new endpoint with target QPS
endpoint = client.create_endpoint(
name="my-high-qps-endpoint",
endpoint_type="STANDARD",
target_qps=500,
)
# Update an existing endpoint's target QPS
response = client.update_endpoint(name="my-endpoint", target_qps=500)
# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested target QPS: {scaling_info.get('requested_target_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" while capacity is being provisioned,
# then transitions to "SCALING_CHANGE_APPLIED"
REST API
Endpunkt mit Ziel-QPS erstellen:
POST /api/2.0/vector-search/endpoints
{
"name": "my-high-qps-endpoint",
"endpoint_type": "STANDARD",
"target_qps": 500
}
Aktualisieren von Ziel-QPS auf einem vorhandenen Endpunkt:
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"target_qps": 500
}
Überprüfen des Skalierungsstatus:
GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
Das Feld „Antwort“ scaling_info zeigt requested_target_qps und die Skalierung state an. Der Zustand ist SCALING_CHANGE_IN_PROGRESS , während die Kapazität bereitgestellt wird, und wechselt dann zu SCALING_CHANGE_APPLIED.
Wie die Skalierung angewendet wird
Nachdem Sie einen Ziel-QPS festgelegt haben, wird die erforderliche Kapazität automatisch bereitgestellt. Die neue Durchsatzstufe gilt nach Abschluss der Bereitstellung; Sie müssen keine Indizes synchronisieren, um die Änderung auszulösen.
Hinweis
Beim Versuch, die Ziel-QPS zu aktualisieren, während ein Skalierungsvorgang ausgeführt wird, wird ein RESOURCE_CONFLICT Fehler zurückgegeben. Warten Sie, bis der aktuelle Vorgang abgeschlossen ist, bevor Sie den Vorgang wiederholen.
Einschränkungen
- Keine automatische Skalierung: Sie müssen die Ziel-QPS basierend auf dem erwarteten Datenverkehr manuell festlegen. Wenn der Datenverkehr die bereitgestellte Ebene überschreitet, treten 429 Fehler auf. Siehe Plan für Abfrage-Spitzen.
-
Nur Standardendpunkte: Speicheroptimierte Endpunkte unterstützen
target_qpsnicht .