Ridimensionare la velocità effettiva degli endpoint con QPS elevato (Beta)

Important

Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.

Per impostazione predefinita, gli endpoint standard supportano 20-200 QPS a seconda delle dimensioni dell'indice. Le applicazioni in tempo reale, come ad esempio barre di ricerca, sistemi di raccomandazione e corrispondenza delle entità, richiedono spesso 100-1000+ QPS. Solo sugli endpoint standard è possibile impostare un QPS minimo. Databricks effettua il provisioning dell'infrastruttura per supportare tale livello di velocità effettiva quando vengono creati o sincronizzati gli indici.

Important

L'impostazione di un QPS minimo provisiona capacità aggiuntiva, aumentando così il costo dell'endpoint. Questa capacità aggiuntiva viene addebitata indipendentemente dal traffico effettivo delle query. Per interrompere l'addebito di questi addebiti, reimpostare l'endpoint sulla configurazione predefinita usando min_qps=-1. Il ridimensionamento della velocità effettiva è il massimo sforzo e non è garantito durante la versione Beta.

Usare un livello di QPS elevato quando:

L'applicazione richiede più di 50 QPS di velocità effettiva sostenuta.
Si ricevono errori 429 (troppe richieste) con carico normale.
La latenza si riduce man mano che il traffico aumenta, anche quando l'utilizzo medio risulta basso.

Requisiti

QPS elevato è disponibile solo per gli endpoint standard. Gli endpoint ottimizzati per l'archiviazione non sono supportati.
L'autenticazione OAuth è necessaria per gli endpoint che gestiscono più di 70-100 QPS. I token di accesso personale (PAT) sono limitati a una velocità massima di 70-100 QPS. Vedere Usare entità servizio con token OAuth.

Configurare la quantità minima di QPS

Impostare un QPS minimo durante la creazione di un nuovo endpoint o l'aggiornamento di uno esistente. La capacità aggiuntiva necessaria per ottenere il throughput di destinazione viene calcolata automaticamente quando un indice viene creato o sincronizzato nell'endpoint. In Beta il ridimensionamento della velocità effettiva è il massimo sforzo e non è garantito: il QPS effettivo dipende dalle dimensioni dell'indice, dalla dimensionalità vettoriale, dalla complessità delle query e dall'utilizzo del filtro.

Interfaccia utente di Databricks

Quando si crea un nuovo endpoint:

Nella barra laterale sinistra fare clic su Calcolo.
Fare clic sulla scheda ricerca vettoriale e fare clic su Crea.
In Impostazioni avanzate immettere il valore min QPS .

Quando si aggiorna un endpoint esistente:

Vai alla pagina dei dettagli dell'endpoint.
Individuare il campo Min QPS nel pannello destro e fare clic sull'icona a forma di matita accanto al valore corrente.
Immettere il nuovo valore e fare clic su Salva.

Dopo aver modificato il valore QPS minimo, sincronizzare gli indici per applicare la nuova configurazione.

Python SDK

from databricks.vector_search.client import VectorSearchClient, MIN_QPS_RESET_TO_DEFAULT

client = VectorSearchClient()

# Create a new endpoint with minimum QPS
endpoint = client.create_endpoint(
    name="my-high-qps-endpoint",
    endpoint_type="STANDARD",
    min_qps=500,
)

# Update an existing endpoint's minimum QPS
response = client.update_endpoint(name="my-endpoint", min_qps=500)

# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested min QPS: {scaling_info.get('requested_min_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" until the next index sync,
# then transitions to "SCALING_CHANGE_APPLIED"

# Reset to default (remove high QPS configuration)
client.update_endpoint(name="my-endpoint", min_qps=MIN_QPS_RESET_TO_DEFAULT)

REST API

Creare un endpoint con QPS minimo:

POST /api/2.0/vector-search/endpoints
{
  "name": "my-high-qps-endpoint",
  "endpoint_type": "STANDARD",
  "min_qps": 500
}

Aggiornare il QPS minimo in un endpoint esistente:

PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
  "min_qps": 500
}

Controllare lo stato di ridimensionamento:

GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>

Il campo della risposta scaling_info mostra il QPS minimo richiesto e il ridimensionamento state. Lo stato è SCALING_CHANGE_IN_PROGRESS fino al completamento della sincronizzazione dell'indice successivo, quindi passa a SCALING_CHANGE_APPLIED.

Reimpostare il valore predefinito (rimuovere QPS elevato):

PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
  "min_qps": -1
}

Come si applica il ridimensionamento

Dopo aver impostato un QPS minimo, viene effettuato il provisioning della capacità necessaria alla successiva creazione o sincronizzazione di un indice nell'endpoint. Per applicare immediatamente la modifica, attivare una sincronizzazione in ogni indice ospitato nell'endpoint.

Annotazioni

Il tentativo di aggiornare il QPS minimo mentre è in corso un'operazione di ridimensionamento restituisce un RESOURCE_CONFLICT errore. Attendere il completamento dell'operazione corrente prima di riprovare.

Limitazioni

Nessuna scalabilità automatica: è necessario impostare manualmente QPS minimo in base al traffico previsto. Se il traffico supera il livello previsto, si verificano errori 429. Vedere Pianificare i picchi di query.
Solo endpoint standard: gli endpoint ottimizzati per l'archiviazione non supportano min_qps.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-02-21