Limiti e aree di disponibilità di Model Serving
Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.
Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se hai commenti o suggerimenti su questi limiti, contatta il team del tuo account Databricks.
La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.
Funzionalità | Granularità | Limite |
---|---|---|
Dimensioni del carico utile | Per richiesta | 16 MB. Per gli endpoint che gestiscono modelli di base , modelli esternio agenti di intelligenza artificiale il limite è di 4 MB. |
Dimensione della richiesta e della risposta | Per richiesta | Qualsiasi richiesta/risposta su 1 MB non verrà registrata. |
Query al secondo (QPS) | Per area di lavoro | 200, ma può essere aumentato a 25.000 o più contattando il team del tuo account Databricks. |
Durata dell'esecuzione del modello | Per richiesta | 120 secondi |
Utilizzo della memoria della CPU del modello di endpoint | Per terminale | 4 GB |
Utilizzo della memoria del modello endpoint GPU | Per terminale | Una memoria GPU maggiore o uguale a quella assegnata dipende dalla dimensione del carico di lavoro della GPU. |
Concorrenza provisionata | Per modello e per area di lavoro | 200 di concorrenza. È possibile aumentare il limite contattando il team del vostro account Databricks. |
Latenza di overhead | Per richiesta | Meno di 50 millisecondi |
Script di inizializzazione | Gli script Init non sono supportati. | |
Limiti di utilizzo delle API del Modello Fondamentale (pagamento per token) | Per area di lavoro | Se i limiti seguenti non sono sufficienti per il caso d'uso, Databricks consiglia di usare il throughput predefinito.
|
Limiti di velocità delle API dei modelli fondamentali (throughput previsto) | Per area di lavoro | 200 |
- Gli endpoint di Model Serving sono protetti dal controllo degli accessi e rispettano le regole di ingresso relative alla rete configurate nell'area di lavoro, come elenchi di accesso IP e collegamento privato.
- La connettività privata (come il Collegamento Privato di Azure) è supportata solo per gli endpoint di servizio del modello che utilizzano la larghezza di banda effettiva fornita o gli endpoint che gestiscono modelli personalizzati.
- Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
- Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team responsabile dell'account Databricks.
Nota
Nell'ambito dell'offerta delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente .
Per entrambi i carichi di lavoro con pagamento per token e throughput provisionato:
- Solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza per gli endpoint delle API del modello di base. Per modificare i limiti di velocità, seguire questa procedura:
- Aprire l'interfaccia utente di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
- Dal menu kebab nell'endpoint delle API del modello di base da modificare selezionare Visualizza dettagli.
- Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Limite di frequenza di modifica.
- I GTE Large (En) modelli di incorporamento non generano incorporamenti normalizzati.
Di seguito sono riportati i limiti relativi alle API del modello di base per i carichi di lavoro con pagamento in base al token :
-
carichi di lavoro con pagamento in base al token sono conformi a HIPAA.
- Per i clienti con profilo di sicurezza conformità abilitato, sono disponibili carichi di lavoro con pagamento in base al token, a condizione che sia selezionato lo standard di conformità HIPAA o Nessuno. Altri standard di conformità non sono supportati per i carichi di lavoro con pagamento in base al token.
- Meta Llama 3.3 70B e GTE Large (En) sono disponibili nei modelli a pagamento per token nelle regioni supportate di UE e Stati Uniti.
- I seguenti modelli di pagamento in base al token sono supportati solo nelle aree degli Stati Uniti compatibili con le API del modello di base con pagamento in base al token:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Istruzioni
- BGE Large (En)
- Se l'area di lavoro si trova in un'area di gestione dei modelli ma non in un'area degli Stati Uniti o dell'UE, l'area di lavoro deve essere abilitata per l'elaborazione dei dati tra aree geografiche. Se abilitato, il carico di lavoro con pagamento per token viene instradato agli Stati Uniti Databricks Geo. Per vedere quali aree geografiche elaborano i carichi di lavoro con pagamento per token, vedere Servizi designati di Databricks.
Di seguito sono riportati i limiti rilevanti per i carichi di lavoro con throughput previsto delle API del modello di base:
- Throughput preconfigurato supporta il profilo di conformità HIPAA ed è consigliato per i carichi di lavoro che richiedono certificazioni di conformità.
- Per utilizzare l'architettura del modello DBRX per un carico di lavoro con throughput fornito, l'endpoint di servizio deve trovarsi in una delle seguenti regioni:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- La tabella seguente illustra la disponibilità dell'area dei modelli Meta Llama 3.1, 3.2 e 3.3 supportati. Per indicazioni su come distribuire modelli di base ottimizzati, vedere Distribuire modelli di base ottimizzati.
- Per distribuire un modello Meta Llama da
system.ai
in Unity Catalog, è necessario scegliere la versione applicabile Istruzione. Le versioni di base dei modelli Meta Llama non sono supportate per la distribuzione da Unity Catalog. Vedere [Consigliato] Distribuire modelli di base dal catalogo Unity.
Variante del modello Meta Llama | Regioni |
---|---|
meta-llama/Llama-3.1-8B |
|
meta-llama/Llama-3.1-8B-Instruct |
|
meta-llama/Llama-3.1-70B |
|
meta-llama/Llama-3.1-70B-Instruct |
|
meta-llama/Llama-3.1-405B |
|
meta-llama/Llama-3.1-405B-Instruct |
|
meta-llama/Llama-3.2-1B |
|
meta-llama/Llama-3.2-1B-Instruct |
|
meta-llama/Llama-3.2-3B |
|
meta-llama/Llama-3.2-3B-Instruct |
|
meta-llama/Llama-3.3-70B |
|
Nota
Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.
Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
Per ulteriori informazioni sulla disponibilità regionale delle funzioni, vedere Modello che prevede la disponibilità regionale.