Quotas et limites du service Azure OpenAI Service

Article
04/19/2024

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite	Limite de la valeur
Ressources OpenAI par région par abonnement Azure	30
Limites de quota DALL-E 2 par défaut	2 demandes simultanées
Limites de quota DALL-E 3 par défaut	2 unités de capacité (6 requêtes par minute)
Nombre maximal de jetons d’invite par requête	Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Déploiements de modèles ajustés maximum	5
Nombre total de travaux de formation par ressource	100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource	1
Nombre maximal de travaux de formation mis en file d’attente	20
Nombre maximal de fichiers par ressource (réglage précis)	30
Taille totale de tous les fichiers par ressource (réglage précis)	1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée)	720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques)	2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données)	16 Mo
Nombre maximal ou entrées dans le tableau avec `/embeddings`	2048
Nombre maximal de messages `/chat/completions`	2048
Nombre maximal de fonctions `/chat/completions`	128
Nombre maximal d’outils `/chat completions`	128
Nombre maximal d’unités de débit approvisionnées par déploiement	100 000
Nombre maximal de fichiers par assistant/thread	20
Taille de fichier maximale pour Assistants et réglage précis	512 Mo
Limite de jetons assistants	Limite de 2 000 000 jetons

Limites de quota régionales

Le quota par défaut pour les modèles varie selon le modèle et la région. Les limites de quota par défaut sont susceptibles d’être modifiées.

Le quota pour les déploiements standard est décrit en termes de jetons par minute (TPM).

Région	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	40 K	80 K	80 K	30 000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
francecentral	20 K	60 K	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
centre de la suède	40 K	80 K	150 K	30 000	300 K	240 K	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
suisse nord	40 K	80 K	-	30 000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 000	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1 000 jetons par minute (TPM). La relation entre TPM et Demandes par minute (RPM) est actuellement définie comme 6 RPM pour 1 000 TPM.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

Implémentez une logique de nouvelle tentative dans votre application.
Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
Testez différents modèles d’augmentation de la charge.
Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure OpenAI Studio. Veuillez noter qu’en raison d’une demande écrasante, les demandes d’augmentation de quota sont acceptées et seront remplies par ordre de réception. La priorité sera accordée aux clients qui génèrent du trafic qui consomme l’allocation de quota existante, et votre requête peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.