Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.
Domyślnie standardowe punkty końcowe obsługują od 20 do 200 QPS w zależności od rozmiaru indeksu. Aplikacje w czasie rzeczywistym, takie jak paski wyszukiwania, systemy rekomendacji i dopasowywanie jednostek, często wymagają 100–1000+ QPS. Tylko w przypadku standardowych punktów końcowych można ustawić minimalną liczbę QPS. Usługa Databricks udostępnia infrastrukturę w celu obsługi tego poziomu przepustowości podczas tworzenia lub synchronizowania indeksów.
Ważne
Ustawienie minimalnej liczby QPS zapewnia dodatkową przepustowość, zwiększając tym samym koszt punktu końcowego. Opłaty są naliczane za tę dodatkową pojemność niezależnie od rzeczywistego ruchu zapytań. Aby zatrzymać naliczanie tych opłat, zresetuj punkt końcowy do konfiguracji domyślnej przy użyciu polecenia min_qps=-1. Skalowanie przepływności jest realizowane w miarę możliwości (best-effort) i nie jest gwarantowane w wersji beta.
Użyj wysokiego QPS, gdy:
- Aplikacja wymaga więcej niż 50 QPS trwałej przepływności.
- Występują błędy 429 (Zbyt wiele żądań) przy normalnym obciążeniu.
- Opóźnienie zmniejsza się w miarę zwiększania się ruchu nawet wtedy, gdy średnie wykorzystanie wydaje się niskie.
Wymagania
- Wysokie QPS jest dostępne tylko dla standardowych punktów końcowych. Punkty końcowe zoptymalizowane pod kątem przechowywania nie są obsługiwane.
- Uwierzytelnianie OAuth jest wymagane w przypadku punktów końcowych obsługujących więcej niż 70–100 QPS. Osobiste tokeny dostępu (PATs) są ograniczone do 70–100 QPS. Zobacz Use service principals with OAuth tokens (Używanie jednostek usługi z tokenami OAuth).
Skonfiguruj minimalną liczbę QPS
Ustaw minimalną wartość QPS podczas tworzenia nowego punktu końcowego lub aktualizowania istniejącego punktu końcowego. Dodatkowa pojemność wymagana do osiągnięcia docelowej przepływności jest obliczana automatycznie przy następnym utworzeniu lub zsynchronizowaniu indeksu w punkcie końcowym. W wersji beta skalowanie przepływności odbywa się w miarę możliwości i nie jest gwarantowane: rzeczywiste QPS zależy od rozmiaru indeksu, wymiarowości wektorowej, złożoności zapytań oraz użycia filtru.
Interfejs użytkownika usługi Databricks
Podczas tworzenia nowego punktu końcowego:
- Na lewym pasku bocznym kliknij pozycję Compute.
- Kliknij kartę wyszukiwania wektorowego i kliknij Utwórz.
- W obszarze Ustawienia zaawansowane wprowadź wartość Minimalna wartość QPS .
Podczas aktualizowania istniejącego punktu końcowego:
- Przejdź do strony szczegółów punktu końcowego.
- Znajdź pole Min QPS w prawym panelu i kliknij ikonę ołówka obok bieżącej wartości.
- Wprowadź nową wartość i kliknij przycisk Zapisz.
Po zmianie minimalnej liczby QPS zsynchronizuj indeksy, aby zastosować nową konfigurację.
Zestaw SDK dla języka Python
from databricks.vector_search.client import VectorSearchClient, MIN_QPS_RESET_TO_DEFAULT
client = VectorSearchClient()
# Create a new endpoint with minimum QPS
endpoint = client.create_endpoint(
name="my-high-qps-endpoint",
endpoint_type="STANDARD",
min_qps=500,
)
# Update an existing endpoint's minimum QPS
response = client.update_endpoint(name="my-endpoint", min_qps=500)
# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested min QPS: {scaling_info.get('requested_min_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" until the next index sync,
# then transitions to "SCALING_CHANGE_APPLIED"
# Reset to default (remove high QPS configuration)
client.update_endpoint(name="my-endpoint", min_qps=MIN_QPS_RESET_TO_DEFAULT)
interfejs API REST
Utwórz punkt końcowy z minimalnym QPS:
POST /api/2.0/vector-search/endpoints
{
"name": "my-high-qps-endpoint",
"endpoint_type": "STANDARD",
"min_qps": 500
}
Zaktualizuj minimalną liczbę QPS w istniejącym punkcie końcowym:
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"min_qps": 500
}
Sprawdź stan skalowania:
GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
Pole odpowiedzi scaling_info zawiera żądane minimum QPS i skalowanie state. Stan jest SCALING_CHANGE_IN_PROGRESS do momentu ukończenia następnej synchronizacji indeksu, a następnie przejścia do .SCALING_CHANGE_APPLIED
Przywróć domyślne (usuń wysoki poziom QPS):
PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
"min_qps": -1
}
Jak ma zastosowanie skalowanie
Po ustawieniu minimalnej liczby zapytań na sekundę (QPS), wymagana pojemność zostanie dostarczona przy następnym utworzeniu lub zsynchronizowaniu indeksu w tym punkcie końcowym. Aby natychmiast zastosować zmianę, wyzwól synchronizację dla każdego indeksu hostowanego w punkcie końcowym.
Uwaga / Notatka
Podczas próby zaktualizowania minimalnej liczby zapytań na sekundę (QPS) w trakcie trwającej operacji skalowania, zwracany jest błąd RESOURCE_CONFLICT. Poczekaj na ukończenie bieżącej operacji przed ponowieniu próby.
Ograniczenia
- Brak skalowania automatycznego: należy ręcznie ustawić minimalną liczbę QPS na podstawie oczekiwanego ruchu. Jeśli ruch przekroczy aprowizowany poziom, wystąpią błędy 429. Zobacz Planowanie skoków zapytań.
-
Tylko standardowe punkty końcowe: punkty końcowe zoptymalizowane pod kątem przechowywania nie obsługują
min_qps.