Quote e limiti del servizio OpenAI di Azure
Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per OpenAI di Azure in Servizi di Azure AI.
Informazioni di riferimento su quote e limiti
Le seguenti sezioni forniscono una guida rapida alle quote e ai limiti applicabili a OpenAI di Azure:
Nome limite | Valore limite |
---|---|
Risorse OpenAI per area per sottoscrizione di Azure | 30 |
Limiti di quota DALL-E 2 predefiniti | 2 richieste simultanee |
Limiti di quota DALL-E 3 predefiniti | 2 unità di capacità (6 richieste al minuto) |
Limiti di quota Whisper predefiniti | 3 richieste al minuto |
Numero massimo di token di richiesta per richiesta | Varia per modello. Per altre informazioni, vedere Modelli Servizio OpenAI di Azure |
Numero massimo di distribuzioni modello ottimizzate | 5 |
Numero totale di processi di training per risorsa | 100 |
Numero massimo di processi di training simultanei per risorsa | 1 |
Numero massimo di processi di training in coda | 20 |
Numero massimo di file per risorsa (ottimizzazione) | 50 |
Dimensioni totali di tutti i file per risorsa (ottimizzazione) | 1 GB |
Tempo massimo del processo di training (il processo avrà esito negativo se superato) | 720 ore |
Dimensioni massime del processo di training (token nel file di training) x (n. di periodi) | 2 miliardi |
Dimensioni massime di tutti i file per caricamento (OpenAI di Azure nei dati) | 16 MB |
Numero massimo o input nella matrice con /embeddings |
2048 |
Numero massimo di messaggi /chat/completions |
2048 |
Numero massimo di funzioni /chat/completions |
128 |
Numero massimo di strumenti /chat completions |
128 |
Numero massimo di unità elaborate con provisioning per distribuzione | 100,000 |
Numero massimo di file per assistente/thread | 20 |
Dimensioni massime dei file per assistente e ottimizzazione | 512 MB |
Limite di token degli assistenti | Limite di 2.000.000 token |
Numero massimo di immagini GPT-4o per richiesta (n. di immagini nella matrice dei messaggi/cronologia conversazioni) | 10 |
Numero massimo di token predefiniti GPT-4 vision-preview e GPT-4 turbo-2024-04-09 |
16 Aumentare il valore del parametro max_tokens per evitare risposte troncate. Per impostazione predefinita, il numero massimo di token GPT-4o è 4096. |
Limiti di quota a livello di area
Paese | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune | GPT-4 - ottimizzazione |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40.000 | 80.000 | 80.000 | 30.000 | - | - | 300.000 | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40.000 | 80.000 | 80.000 | - | - | - | 300.000 | - | 350.000 | 350.000 | 350.000 | - | - | - | - | - | - | - | - |
eastus | - | - | 80.000 | - | 150.000 1.000.000 |
450.000 10.000.000 |
240.00 | 240.00 | 240.00 | 350.000 | 350.000 | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80.000 | - | 150.000 1.000.000 |
450.000 10.000.000 |
300.000 | - | 350.000 | 350.000 | 350.000 | - | - | - | - | 250.000 | 250.000 | 250.000 | - |
francecentral | 20.000 | 60.000 | 80.000 | - | - | - | 240.00 | - | 240.00 | - | 350.000 | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30.000 | - | - | 300.000 | - | 350.000 | - | 350.000 | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80.000 | - | 150.000 1.000.000 |
450.000 10.000.000 |
300.000 | - | 350.000 | - | - | 240.00 | 250.000 | 240.00 | 250.000 | 250.000 | 250.000 | 250.000 | 100 K |
norwayeast | - | - | 150.000 | - | - | - | - | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
Stati Uniti centro-meridionali | - | - | 80.000 | - | 150.000 1.000.000 |
450.000 10.000.000 |
240.00 | - | 240.00 | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150.000 | - | - | - | 300.000 | - | 350.000 | - | 350.000 | - | - | - | - | - | - | - | - |
Svezia centrale | 40.000 | 80.000 | 150.000 | 30.000 | 150.000 1.000.000 |
- | 300.000 | 240.00 | 350.000 | - | 350.000 | 240.00 | 250.000 | 240.00 | 250.000 | 250.000 | 250.000 | 250.000 | 100 K |
Svizzera settentrionale | 40.000 | 80.000 | - | 30.000 | - | - | 300.000 | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250.000 | - | 250.000 | 250.000 | 250.000 | 250.000 | - |
uksouth | - | - | 80.000 | - | - | - | 240.00 | - | 350.000 | - | 350.000 | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | 240.00 | - | 240.00 | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80.000 | 30.000 | 150.000 1.000.000 |
450.000 10.000.000 |
300.000 | - | 350.000 | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80.000 | - | 150.000 1.000.000 |
450.000 10.000.000 |
- | - | 350.000 | - | 350.000 | - | - | - | - | - | - | - | - |
Limiti di velocità gpt-4o
gpt-4o
introduce livelli di limiti di velocità con limiti più elevati per determinati tipi di clienti.
standard globale gpt-4o
Livello | Limite di quota nei token al minuto (TPM) | Richieste al minuto |
---|---|---|
Contratto Enterprise | 10.000.000 | 60.000 |
Default | 450.000 | 2.700 |
M = milioni | K = migliaia
Standard gpt-4o
Livello | Limite di quota nei token al minuto (TPM) | Richieste al minuto |
---|---|---|
Contratto Enterprise | 1.000.000 | 6K |
Default | 150.000 | 900 |
M = milioni | K = migliaia
Livelli di utilizzo
Le distribuzioni Standard globali usano l'infrastruttura globale di Azure, instradando dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò consente una latenza più coerente per i clienti con livelli di traffico da basso a medio. I clienti con elevati livelli di utilizzo sostenuti possono riscontrare una maggiore variabilità nella latenza di risposta.
Il limite di utilizzo determina il livello di utilizzo al di sopra del quale i clienti potrebbero riscontrare una maggiore variabilità nella latenza di risposta. L'utilizzo di un cliente viene definito per modello ed è il totale dei token consumati in tutte le distribuzioni, in tutte le sottoscrizioni e in tutte le aree per un determinato tenant.
Standard globale e standard GPT-4o
Modello | Livelli di utilizzo al mese |
---|---|
GPT-4o |
1,5 miliardi di token |
Altri tipi di offerta
Se la sottoscrizione di Azure è collegata a determinati tipi di offerta, i valori di quota massima sono inferiori ai valori indicati nelle tabelle precedenti.
Livello | Limite di quota nei token al minuto (TPM) |
---|---|
Microsoft Azure for Students, versioni di prova gratuite | 1.000 (tutti i modelli) |
Sottoscrizioni MSDN | Serie GPT 3.5 Turbo: 30.000 Serie GPT-4: 8.000 |
Sottoscrizioni mensili basate su carta di credito 1 | Serie GPT 3.5 Turbo: 30.000 Serie GPT-4: 8.000 |
1 Attualmente ciò è valido per il tipo di offerta 0003P
Nel portale di Azure è possibile visualizzare il tipo di offerta associato alla sottoscrizione, passando alla sottoscrizione e controllando il riquadro della panoramica della sottoscrizione. Il tipo di offerta corrisponde al campo del piano nella panoramica della sottoscrizione.
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
Come richiedere aumenti delle quote e dei limiti predefiniti
Le richieste di aumento della quota possono essere inviate dalla pagina Quote di Azure OpenAI Studio. Si noti che, a causa dell’eccessiva domanda, le richieste di aumento della quota vengono accettate e verranno compilate nell'ordine in cui vengono ricevute. La priorità verrà assegnata ai clienti che generano traffico che consuma l'allocazione della quota esistente; la richiesta potrebbe essere negata se tale condizione non viene soddisfatta.
Per altri limiti di frequenza, inviare una richiesta di servizio.
Passaggi successivi
Informazioni su come gestire la quota per le distribuzioni OpenAI di Azure. Altre informazioni sui modelli sottostanti che alimentano OpenAI di Azure.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per