Condividi tramite


Limiti e aree di gestione dei modelli

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.

Limiti

Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se si hanno commenti e suggerimenti su questi limiti, contattare il team dell'account Databricks.

La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.

Funzionalità Granularità Limite
Dimensioni del payload Per richiesta 16 MB
Query al secondo Per area di lavoro 200, ma può essere aumentato a 3000 o più raggiungendo l'account Databricks
Durata dell'esecuzione del modello Per richiesta 120 secondi
Utilizzo della memoria del modello di endpoint cpu Per endpoint 4 GB
Utilizzo della memoria del modello di endpoint GPU Per endpoint La memoria GPU è maggiore o uguale a quella assegnata, dipende dalle dimensioni del carico di lavoro GPU
Concorrenza con provisioning Per area di lavoro 200 concorrenza. Può essere aumentato raggiungendo l'account Databricks.
Latenza overhead Per richiesta Meno di 50 millisecondi
Limiti delle API del modello di base (pagamento per token) Per area di lavoro Contattare il team dell'account Databricks per aumentare i limiti seguenti.

* Il modello DBRX Instruct ha un limite di 1 query al secondo.
* Altri modelli di chat e completamento hanno un limite di frequenza predefinito di 2 query al secondo.
* I modelli di incorporamento hanno un valore predefinito di 300 input di incorporamento al secondo.
Limiti di frequenza delle API del modello di base (velocità effettiva con provisioning) Per area di lavoro Uguale al limite QPS di Gestione modelli elencato in precedenza.

Gli endpoint di gestione dei modelli sono protetti dal controllo di accesso e rispettano le regole di ingresso correlate alla rete configurate nell'area di lavoro, ad esempio elenchi di indirizzi IP consentiti e collegamento privato.

Esistono anche limitazioni aggiuntive:

  • È possibile distribuire un'area di lavoro in un'area supportata, ma essere servita da un piano di controllo in un'area diversa. Queste aree di lavoro non supportano la gestione del modello e generano un messaggio di errore che informa che l'area di lavoro non è supportata. Per altre informazioni, contattare il team dell'account di Azure Databricks.
  • La gestione dei modelli non supporta gli script init.
  • Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni, ad esempio Azure OpenAI. Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per altre informazioni, contattare il team dell'account di Azure Databricks.

Limiti delle API del modello di base

Nota

Nell'ambito della fornitura delle API del modello di base, Databricks può elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente.

Di seguito sono riportati i limiti relativi ai carichi di lavoro delle API del modello di base:

  • La velocità effettiva con provisioning supporta il profilo di conformità HIPAA e deve essere usata per i carichi di lavoro che richiedono certificazioni di conformità. I carichi di lavoro con pagamento in base al token non sono conformi al profilo di sicurezza HIPAA o alla conformità.
  • Per gli endpoint delle API del modello di base, solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza. Per modificare i limiti di frequenza, seguire questa procedura:
    1. Aprire l'interfaccia utente Di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
    2. Dal menu kebab nell'endpoint delle API modello di base che si vuole modificare selezionare Visualizza dettagli.
    3. Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Modifica limite di frequenza.
  • Per usare l'architettura del modello DBRX per un carico di lavoro con velocità effettiva con provisioning, l'endpoint di gestione deve trovarsi in una delle aree seguenti:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilità a livello di area

Nota

Se è necessario un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Per altre informazioni sulla disponibilità a livello di area delle funzionalità, vedere Funzionalità con disponibilità a livello di area limitata