Quotas et limites du service Azure OpenAI Service

Article
06/21/2024

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite	Limite de la valeur
Ressources OpenAI par région par abonnement Azure	30
Limites de quota DALL-E 2 par défaut	2 demandes simultanées
Limites de quota DALL-E 3 par défaut	2 unités de capacité (6 requêtes par minute)
Limites de quota Whisper par défaut	3 requêtes par minute
Nombre maximal de jetons d’invite par requête	Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Déploiements de modèles ajustés maximum	5
Nombre total de travaux de formation par ressource	100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource	1
Nombre maximal de travaux de formation mis en file d’attente	20
Nombre maximal de fichiers par ressource (réglage précis)	50
Taille totale de tous les fichiers par ressource (réglage précis)	1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée)	720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques)	2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données)	16 Mo
Nombre maximal ou entrées dans le tableau avec `/embeddings`	2048
Nombre maximal de messages `/chat/completions`	2048
Nombre maximal de fonctions `/chat/completions`	128
Nombre maximal d’outils `/chat completions`	128
Nombre maximal d’unités de débit approvisionnées par déploiement	100 000
Nombre maximal de fichiers par assistant/thread	20
Taille de fichier maximale pour Assistants et réglage précis	512 Mo
Limite de jetons assistants	Limite de 2 000 000 jetons
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations)	10
Nombre maximum par défaut de jetons GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Augmentez la valeur du paramètre `max_tokens` pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096.

Limites de quota régionales

Région	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o – GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune	GPT-4 – finetune
australiaeast	40 K	80 K	80 K	30 000	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	-	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus	-	-	80 K	-	150 K 1 M	450 K 10 M	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	150 K 1 M	450 K 10 M	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K	-
francecentral	20 K	60 K	80 K	-	-	-	240 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 000	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	150 K 1 M	450 K 10 M	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 K
norwayeast	-	-	150 K	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 K	-	150 K 1 M	450 K 10 M	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
centre de la suède	40 K	80 K	150 K	30 000	150 K 1 M	-	300 K	240 K	350 K	-	350 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 K
suisse nord	40 K	80 K	-	30 000	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K	-
uksouth	-	-	80 K	-	-	-	240 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 000	150 K 1 M	450 K 10 M	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	150 K 1 M	450 K 10 M	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-

limites de taux gpt-4o

gpt-4o introduit des niveaux de limite de débit avec des limites plus élevées pour certains types de clients.

norme mondiale gpt-4o

Remarque

Le type de déploiement de modèle standard global est actuellement en préversion publique.

Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
Contrat Entreprise	10 M	60 K
Par défaut	450 K	2,7 K

M = million | K = mille

norme gpt-4o

Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
Contrat Entreprise	1 M	6K
Par défaut	150 K	900

M = million | K = mille

Niveaux d’utilisation

Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et routent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.

GPT-4o standard mondial et standard

Modèle	Niveaux d’utilisation par mois
`GPT-4o`	1,5 milliard de jetons

Autres types d’offres

Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.

Niveau	Limite de quota en jetons par minute (TPM)
Microsoft Azure for Students, essais gratuits	1 K (tous les modèles)
Abonnements MSDN	Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K
Abonnements mensuels basés sur des cartes de crédit ¹	Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K

¹ Ceci s’applique actuellement au type d’offre 0003P

Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

Implémentez une logique de nouvelle tentative dans votre application.
Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
Testez différents modèles d’augmentation de la charge.
Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure OpenAI Studio. Veuillez noter qu’en raison d’une demande écrasante, les demandes d’augmentation de quota sont acceptées et seront remplies par ordre de réception. La priorité sera accordée aux clients qui génèrent du trafic qui consomme l’allocation de quota existante, et votre requête peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.

Partager via