Limiti e aree di disponibilità di Model Serving

2025-06-02

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.

Limiti delle risorse e del carico utile

Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se hai commenti o suggerimenti su questi limiti, contatta il team del tuo account Databricks.

La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.

Funzionalità	Granularità	Limite
Dimensioni del carico utile	Per richiesta	16 MB. Per gli endpoint che gestiscono modelli di base, modelli esterni o agenti di intelligenza artificiale , il limite è di 4 MB.
Dimensione della richiesta e della risposta	Per richiesta	Qualsiasi richiesta/risposta su 1 MB non verrà registrata.
Query al secondo (QPS)	Per area di lavoro	200. Per QPS superiore, abilitare l'ottimizzazione della route.
Durata dell'esecuzione del modello	Per richiesta	120 secondi
Utilizzo della memoria della CPU del modello di endpoint	Per terminale	4 GB
Utilizzo della memoria del modello endpoint GPU	Per terminale	Una memoria GPU maggiore o uguale a quella assegnata dipende dalla dimensione del carico di lavoro della GPU.
Concorrenza provisionata	Per modello e per area di lavoro	200 di simultaneità. È possibile aumentare il limite contattando il team del vostro account Databricks.
Latenza di overhead	Per richiesta	Meno di 50 millisecondi
Script di inizializzazione		Gli script Init non sono supportati.
Limiti di utilizzo delle API del Modello Fondamentale (pagamento per token)	Per area di lavoro	Se i limiti seguenti non sono sufficienti per il caso d'uso, Databricks consiglia di usare il throughput predefinito. Claude Sonnet 4 ha un limite di 2 query al secondo. Claude Opus 4 ha un limite di 2 query al secondo. Llama 4 Maverick ha un limite di 4 query al secondo e 2400 query all'ora. Claude 3.7 Sonnet ha un limite di 4 query al secondo e 2400 query all'ora. Llama 3.3 70B Instruct ha un limite di 4 query al secondo e 2400 query all'ora. Llama 3.1 405B Instruct ha un limite di 1 query al secondo e 1200 query all'ora. Llama 3.1 8B Instruct ha un limite di 2 query al secondo. GTE Large (En) ha un limite di frequenza di 150 query al secondo BGE Large (En) ha un limite di frequenza di 600 query al secondo.
Limiti di velocità delle API dei modelli fondamentali (throughput previsto)	Per area di lavoro	200 query al secondo.

Limitazioni di rete e sicurezza

Gli endpoint di gestione dei modelli sono protetti dal controllo di accesso e rispettano le regole di ingresso correlate alla rete configurate nell'area di lavoro, ad esempio gli elenchi di indirizzi IP consentiti e il collegamento privato.
La connettività privata (come il Collegamento Privato di Azure) è supportata solo per gli endpoint di servizio del modello che utilizzano la larghezza di banda effettiva fornita o gli endpoint che gestiscono modelli personalizzati.
Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team responsabile dell'account Databricks.

Standard del profilo di sicurezza della conformità: carichi di lavoro della CPU

La tabella seguente elenca gli standard di conformità dei profili di sicurezza supportati per la funzionalità di gestione dei modelli di base nei carichi di lavoro della CPU.

Nota

Questi standard di conformità richiedono che i contenitori distribuiti siano costruiti negli ultimi 30 giorni. Databricks ricompila automaticamente i contenitori obsoleti per conto dell'utente. Tuttavia, se questo processo automatizzato ha esito negativo, viene visualizzato un messaggio del registro eventi simile al seguente e fornisce indicazioni su come garantire che gli endpoint rimangano entro i requisiti di conformità:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Area geografica	Posizione	HIPAA	HITRUST	PCI-DSS	Cyber Essentials Plus Regno Unito
`australiacentral`	Australiacentrale
`australiacentral2`	AustraliaCentral2
`australiaeast`	Australiaorientale	✓	✓	✓
`australiasoutheast`	Australia Sud-Est
`brazilsouth`	Brasile Sud	✓	✓	✓
`canadacentral`	CanadaCentral	✓	✓	✓
`canadaeast`	Canadaorientale
`centralindia`	CentralIndia	✓	✓	✓
`centralus`	Regione Centrale USA	✓	✓	✓
`chinaeast2`	Cina orientale 2
`chinaeast3`	Cina orientale 3
`chinanorth2`	ChinaNorth2
`chinanorth3`	ChinaNorth3
`eastasia`	EastAsia	✓	✓	✓
`eastus`	Stati Uniti Est	✓	✓	✓
`eastus2`	EastUS2	✓	✓	✓
`francecentral`	FranceCentral	✓	✓	✓
`germanywestcentral`	Germania Centro-Ovest	✓	✓	✓
`japaneast`	GiapponeEast	✓	✓	✓
`japanwest`	GiapponeWest
`koreacentral`	KoreaCentral	✓	✓	✓
`mexicocentral`	MessicoCentral
`northcentralus`	NorthCentralUS	✓	✓	✓
`northeurope`	NordEurope	✓	✓	✓
`norwayeast`	NorvegiaEst
`qatarcentral`	QatarCentral
`southafricanorth`	SudAfricaNord
`southcentralus`	SouthCentralUS	✓	✓	✓
`southeastasia`	Sud-est asiatico	✓	✓	✓
`southindia`	India del Sud
`swedencentral`	SveziaCentral	✓	✓	✓
`switzerlandnorth`	SvizzeraNord	✓	✓	✓
`switzerlandwest`	Svizzera Occidentale
`uaenorth`	UAENord	✓	✓	✓
`uksouth`	UkSouth	✓	✓	✓	✓
`ukwest`	UKWest
`westcentralus`	WestCentralUS
`westeurope`	Europa occidentale	✓	✓	✓
`westindia`	WestIndia
`westus`	WestUS	✓	✓	✓
`westus2`	WestUS2	✓	✓	✓
`westus3`	WestUS3	✓	✓	✓

Limiti delle API dei modelli di base

Nota

Nell'ambito dell'offerta delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente .

Per i carichi di lavoro sia a pagamento per token che con throughput provisionato:

Solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza per gli endpoint delle API del modello di base. Per modificare i limiti di velocità, seguire questa procedura:
1. Aprire l'interfaccia utente di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
2. Dal menu kebab nell'endpoint delle API del modello di base che si desidera modificare, selezionare Visualizza dettagli.
3. Dal menu kebab nella parte in alto a destra della pagina dei dettagli degli endpoint, selezionare Modifica limite di frequenza.
I modelli di incorporamento GTE Large (En) non generano incorporamenti normalizzati.

Limiti relativi al pagamento per token

Di seguito sono riportati i limiti relativi alle API del modello di base per i carichi di lavoro con pagamento in base al token :

I carichi di lavoro con pagamento in base al token sono conformi a HIPAA.
- Per i clienti con il profilo di sicurezza per la conformità abilitato, sono disponibili carichi di lavoro a pagamento per token, a condizione che sia selezionato lo standard di conformità HIPAA o Nessuno. Altri standard di conformità non sono supportati per i carichi di lavoro con pagamento in base al token.
I modelli di pagamento per token seguenti sono supportati solo nelle API del modello di base supportate dalle aree degli Stati Uniti con pagamento in base al token:
- Anthropic Claude Sonnet 4
- Anthropic Claude Opus 4
- Meta Llama 3.1 405B Instruct
- BGE Large (En)
Anthropic Claude 3.7 Sonnet è disponibile nelle aree supportate dall'UE e dagli Stati Uniti con pagamento in base al token. Se l'area di lavoro non si trova in un'area ue o negli Stati Uniti, ma si trova in un'area di gestione dei modelli supportata, è possibile abilitare l'elaborazione dei dati tra aree geografiche per accedere a questo modello.
Se l'area di lavoro si trova in un'area Model Serving, ma non in un'area Stati Uniti o UE, l'area di lavoro deve essere abilitata per l'elaborazione dei dati tra aree geografiche. Quando è abilitato, il carico di lavoro con pagamento per token viene instradato al Databricks Geo negli Stati Uniti. Per vedere quali aree geografiche elaborano i carichi di lavoro con pagamento per token, vedere Servizi designati di Databricks.

Limiti di capacità di trasmissione con provisioning

Di seguito sono riportati i limiti rilevanti per i carichi di lavoro di velocità effettiva con provisioning delle API del modello di base:

La velocità effettiva con provisioning supporta il profilo di conformità HIPAA ed è consigliata per i carichi di lavoro che richiedono certificazioni di conformità.
Per distribuire un modello Meta Llama da system.ai in Unity Catalog, è necessario scegliere la versione di istruzioni applicabile. Le versioni di base dei modelli Meta Llama non sono supportate per la distribuzione da Unity Catalog. Vedere [Consigliato] Distribuire modelli di base dal catalogo unity.
Per i carichi di lavoro con capacità di throughput fornita che usano Llama 4 Maverick:
- Il supporto per questo modello nei carichi di lavoro con velocità effettiva con provisioning è disponibile in anteprima pubblica.
- La scalabilità automatica non è supportata.
- I pannelli delle metriche non sono supportati.
- La suddivisione del traffico non è supportata in un endpoint che serve Llama 4 Maverick. Non è possibile gestire più modelli su un endpoint che serve Llama 4 Maverick.

Disponibilità a livello di area

Nota

Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.

Per ulteriori informazioni sulla disponibilità regionale di ogni funzionalità di servizio dei modelli, vedere Model serving regional availability.

Per la disponibilità dell'area del modello di base ospitata da Databricks, vedere Modelli di base ospitati in Databricks.

Condividi tramite

Limiti e aree di disponibilità di Model Serving

Limiti delle risorse e del carico utile

Limitazioni di rete e sicurezza

Standard del profilo di sicurezza della conformità: carichi di lavoro della CPU

Limiti delle API dei modelli di base

Limiti relativi al pagamento per token

Limiti di capacità di trasmissione con provisioning

Disponibilità a livello di area

Commenti e suggerimenti

Risorse aggiuntive