Leggere in inglese

Condividi tramite


Limiti e aree di disponibilità di Model Serving

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.

Limiti delle risorse e del carico utile

Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se hai commenti o suggerimenti su questi limiti, contatta il team del tuo account Databricks.

La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.

Funzionalità Granularità Limite
Dimensioni del carico utile Per richiesta 16 MB. Per gli endpoint che gestiscono modelli di base , modelli esternio agenti di intelligenza artificiale il limite è di 4 MB.
Dimensione della richiesta e della risposta Per richiesta Qualsiasi richiesta/risposta su 1 MB non verrà registrata.
Query al secondo (QPS) Per area di lavoro 200, ma può essere aumentato a 25.000 o più contattando il team del tuo account Databricks.
Durata dell'esecuzione del modello Per richiesta 120 secondi
Utilizzo della memoria della CPU del modello di endpoint Per terminale 4 GB
Utilizzo della memoria del modello endpoint GPU Per terminale Una memoria GPU maggiore o uguale a quella assegnata dipende dalla dimensione del carico di lavoro della GPU.
Concorrenza provisionata Per modello e per area di lavoro 200 di concorrenza. È possibile aumentare il limite contattando il team del vostro account Databricks.
Latenza di overhead Per richiesta Meno di 50 millisecondi
Script di inizializzazione Gli script Init non sono supportati.
Limiti di utilizzo delle API del Modello Fondamentale (pagamento per token) Per area di lavoro Se i limiti seguenti non sono sufficienti per il caso d'uso, Databricks consiglia di usare il throughput predefinito.
  • Llama 3.3 70B Instruct ha un limite di 2 query al secondo e 1200 query all'ora.
  • Llama 3.1 405B Instruct ha un limite di 1 query al secondo e 1200 query all'ora.
  • Il modello DBRX Instruct ha un limite di 1 query al secondo.
  • Mixtral-8x 7B Instruct ha un limite di frequenza predefinito di 2 query al secondo.
  • GTE Large (En) ha un limite di frequenza di 150 query al secondo
  • BGE Large (En) ha un limite di frequenza di 600 query al secondo.
Limiti di velocità delle API dei modelli fondamentali (throughput previsto) Per area di lavoro 200

Limitazioni di rete e sicurezza

  • Gli endpoint di Model Serving sono protetti dal controllo degli accessi e rispettano le regole di ingresso relative alla rete configurate nell'area di lavoro, come elenchi di accesso IP e collegamento privato.
  • La connettività privata (come il Collegamento Privato di Azure) è supportata solo per gli endpoint di servizio del modello che utilizzano la larghezza di banda effettiva fornita o gli endpoint che gestiscono modelli personalizzati.
  • Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
  • Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team responsabile dell'account Databricks.

Limiti delle API dei modelli di base

Nota

Nell'ambito dell'offerta delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente .

Per entrambi i carichi di lavoro con pagamento per token e throughput provisionato:

  • Solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza per gli endpoint delle API del modello di base. Per modificare i limiti di velocità, seguire questa procedura:
    1. Aprire l'interfaccia utente di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
    2. Dal menu kebab nell'endpoint delle API del modello di base da modificare selezionare Visualizza dettagli.
    3. Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Limite di frequenza di modifica.
  • I GTE Large (En) modelli di incorporamento non generano incorporamenti normalizzati.

Limiti relativi al pagamento per token

Di seguito sono riportati i limiti relativi alle API del modello di base per i carichi di lavoro con pagamento in base al token :

  • carichi di lavoro con pagamento in base al token sono conformi a HIPAA.
    • Per i clienti con profilo di sicurezza conformità abilitato, sono disponibili carichi di lavoro con pagamento in base al token, a condizione che sia selezionato lo standard di conformità HIPAA o Nessuno. Altri standard di conformità non sono supportati per i carichi di lavoro con pagamento in base al token.
  • Meta Llama 3.3 70B e GTE Large (En) sono disponibili nei modelli a pagamento per token nelle regioni supportate di UE e Stati Uniti.
  • I seguenti modelli di pagamento in base al token sono supportati solo nelle aree degli Stati Uniti compatibili con le API del modello di base con pagamento in base al token:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Istruzioni
    • BGE Large (En)
  • Se l'area di lavoro si trova in un'area di gestione dei modelli ma non in un'area degli Stati Uniti o dell'UE, l'area di lavoro deve essere abilitata per l'elaborazione dei dati tra aree geografiche. Se abilitato, il carico di lavoro con pagamento per token viene instradato agli Stati Uniti Databricks Geo. Per vedere quali aree geografiche elaborano i carichi di lavoro con pagamento per token, vedere Servizi designati di Databricks.

Limiti di capacità di trasmissione con provisioning

Di seguito sono riportati i limiti rilevanti per i carichi di lavoro con throughput previsto delle API del modello di base:

  • Throughput preconfigurato supporta il profilo di conformità HIPAA ed è consigliato per i carichi di lavoro che richiedono certificazioni di conformità.
  • Per utilizzare l'architettura del modello DBRX per un carico di lavoro con throughput fornito, l'endpoint di servizio deve trovarsi in una delle seguenti regioni:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • La tabella seguente illustra la disponibilità dell'area dei modelli Meta Llama 3.1, 3.2 e 3.3 supportati. Per indicazioni su come distribuire modelli di base ottimizzati, vedere Distribuire modelli di base ottimizzati.
  • Per distribuire un modello Meta Llama da system.ai in Unity Catalog, è necessario scegliere la versione applicabile Istruzione. Le versioni di base dei modelli Meta Llama non sono supportate per la distribuzione da Unity Catalog. Vedere [Consigliato] Distribuire modelli di base dal catalogo Unity.
Variante del modello Meta Llama Regioni
meta-llama/Llama-3.1-8B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.1-8B-Instruct
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.1-70B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.1-70B-Instruct
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.1-405B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.1-405B-Instruct
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.2-1B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.2-1B-Instruct
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.2-3B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.2-3B-Instruct
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast
meta-llama/Llama-3.3-70B
  • australiaeast
  • centralus
  • eastus
  • eastus2
  • northcentralus
  • southcentralus
  • westus
  • westus2
  • northeurope
  • westeurope
  • uksouth
  • japaneast

Disponibilità a livello di area

Nota

Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.

Per ulteriori informazioni sulla disponibilità regionale delle funzioni, vedere Modello che prevede la disponibilità regionale.