Quotas et limites du service Azure OpenAI Service

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite Limite de la valeur
Ressources OpenAI par région par abonnement Azure 30
Limites de quota DALL-E 2 par défaut 2 demandes simultanées
Limites de quota DALL-E 3 par défaut 2 unités de capacité (6 requêtes par minute)
Nombre maximal de jetons d’invite par requête Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Déploiements de modèles ajustés maximum 5
Nombre total de travaux de formation par ressource 100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource 1
Nombre maximal de travaux de formation mis en file d’attente 20
Nombre maximal de fichiers par ressource (réglage précis) 30
Taille totale de tous les fichiers par ressource (réglage précis) 1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) 720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) 2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) 16 Mo
Nombre maximal ou entrées dans le tableau avec /embeddings 2048
Nombre maximal de messages /chat/completions 2048
Nombre maximal de fonctions /chat/completions 128
Nombre maximal d’outils /chat completions 128
Nombre maximal d’unités de débit approvisionnées par déploiement 100 000
Nombre maximal de fichiers par assistant/thread 20
Taille de fichier maximale pour Assistants et réglage précis 512 Mo
Limite de jetons assistants Limite de 2 000 000 jetons

Limites de quota régionales

Le quota par défaut pour les modèles varie selon le modèle et la région. Les limites de quota par défaut sont susceptibles d’être modifiées.

Le quota pour les déploiements standard est décrit en termes de jetons par minute (TPM).

Région GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast 40 K 80 K 80 K 30 000 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 K 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 000 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
southcentralus - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
centre de la suède 40 K 80 K 150 K 30 000 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
suisse nord 40 K 80 K - 30 000 300 K - 350 K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 000 300 K - 350 K - - - - - - - - -
westus3 - - - - - - 350 K - - - - - - - - -

1 K = 1 000 jetons par minute (TPM). La relation entre TPM et Demandes par minute (RPM) est actuellement définie comme 6 RPM pour 1 000 TPM.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez une logique de nouvelle tentative dans votre application.
  • Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
  • Testez différents modèles d’augmentation de la charge.
  • Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure OpenAI Studio. Veuillez noter qu’en raison d’une demande écrasante, les demandes d’augmentation de quota sont acceptées et seront remplies par ordre de réception. La priorité sera accordée aux clients qui génèrent du trafic qui consomme l’allocation de quota existante, et votre requête peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.