Partager via


Quotas et limites du service Azure OpenAI Service

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite Limite de la valeur
Ressources OpenAI par région par abonnement Azure 30
Limites de quota DALL-E 2 par défaut 2 demandes simultanées
Limites de quota DALL-E 3 par défaut 2 unités de capacité (6 requêtes par minute)
Limites de quota Whisper par défaut 3 requêtes par minute
Nombre maximal de jetons d’invite par requête Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Déploiements de modèles ajustés maximum 5
Nombre total de travaux de formation par ressource 100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource 1
Nombre maximal de travaux de formation mis en file d’attente 20
Nombre maximal de fichiers par ressource (réglage précis) 50
Taille totale de tous les fichiers par ressource (réglage précis) 1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) 720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) 2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) 16 Mo
Nombre maximal ou entrées dans le tableau avec /embeddings 2048
Nombre maximal de messages /chat/completions 2048
Nombre maximal de fonctions /chat/completions 128
Nombre maximal d’outils /chat completions 128
Nombre maximal d’unités de débit approvisionnées par déploiement 100 000
Nombre maximal de fichiers par assistant/thread 20
Taille de fichier maximale pour Assistants et réglage précis 512 Mo
Limite de jetons assistants Limite de 2 000 000 jetons
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations) 10
Nombre maximum par défaut de jetons GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Augmentez la valeur du paramètre max_tokens pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096.

Limites de quota régionales

Région GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o – GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune GPT-4 – finetune
australiaeast 40 K 80 K 80 K 30 000 - - 300 K - 350 K - - - - - - - - - -
brazilsouth - - - - - - - - 350 K - - - - - - - - - -
canadaeast 40 K 80 K 80 K - - - 300 K - 350 K 350 K 350 K - - - - - - - -
eastus - - 80 K - 150 K
1 M
450 K
10 M
240 K 240 K 240 K 350 K 350 K - - - - - - - -
eastus2 - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K -
francecentral 20 K 60 K 80 K - - - 240 K - 240 K - 350 K - - - - - - - -
japaneast - - - 30 000 - - 300 K - 350 K - 350 K - - - - - - - -
northcentralus - - 80 K - 150 K
1 M
450 K
10 M
300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 K
norwayeast - - 150 K - - - - - 350 K - - - - - - - - - -
southafricanorth - - - - - - - - 350 K - - - - - - - - - -
southcentralus - - 80 K - 150 K
1 M
450 K
10 M
240 K - 240 K - - - - - - - - - -
southindia - - 150 K - - - 300 K - 350 K - 350 K - - - - - - - -
centre de la suède 40 K 80 K 150 K 30 000 150 K
1 M
- 300 K 240 K 350 K - 350 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K 100 K
suisse nord 40 K 80 K - 30 000 - - 300 K - 350 K - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K -
uksouth - - 80 K - - - 240 K - 350 K - 350 K - - - - - - - -
westeurope - - - - - - 240 K - 240 K - - - - - - - - - -
westus - - 80 K 30 000 150 K
1 M
450 K
10 M
300 K - 350 K - - - - - - - - - -
westus3 - - 80 K - 150 K
1 M
450 K
10 M
- - 350 K - 350 K - - - - - - - -

limites de taux gpt-4o

gpt-4o introduit des niveaux de limite de débit avec des limites plus élevées pour certains types de clients.

norme mondiale gpt-4o

Remarque

Le type de déploiement de modèle standard global est actuellement en préversion publique.

Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
Contrat Entreprise 10 M 60 K
Par défaut 450 K 2,7 K

M = million | K = mille

norme gpt-4o

Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
Contrat Entreprise 1 M 6K
Par défaut 150 K 900

M = million | K = mille

Niveaux d’utilisation

Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et routent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.

GPT-4o standard mondial et standard

Modèle Niveaux d’utilisation par mois
GPT-4o 1,5 milliard de jetons

Autres types d’offres

Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.

Niveau Limite de quota en jetons par minute (TPM)
Microsoft Azure for Students, essais gratuits 1 K (tous les modèles)
Abonnements MSDN Série GPT 3.5 Turbo : 30 K
Série GPT-4 : 8 K
Abonnements mensuels basés sur des cartes de crédit 1 Série GPT 3.5 Turbo : 30 K
Série GPT-4 : 8 K

1 Ceci s’applique actuellement au type d’offre 0003P

Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez une logique de nouvelle tentative dans votre application.
  • Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
  • Testez différents modèles d’augmentation de la charge.
  • Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure OpenAI Studio. Veuillez noter qu’en raison d’une demande écrasante, les demandes d’augmentation de quota sont acceptées et seront remplies par ordre de réception. La priorité sera accordée aux clients qui génèrent du trafic qui consomme l’allocation de quota existante, et votre requête peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.