Azure OpenAI dans Microsoft Foundry : quotas et limites des modèles

Cet article contient une référence rapide et une description détaillée des quotas et des limites pour Azure OpenAI.

Étendue du quota

Les quotas et les limites ne sont pas appliqués au niveau du locataire. Au lieu de cela, le niveau de restrictions de quota le plus élevé est limité au niveau de l’abonnement Azure.

Allocation de quota régional

Les jetons par minute (TPM) et les demandes par minute (RPM) sont définis par région, par abonnement et par modèle ou type de déploiement.

Par exemple, si le modèle gpt-4.1 Global Standard est répertorié avec un quota de 5 millions de TPM et 5 000 RPM, puis each region où cette model ou le type de déploiement est disponible a son propre pool de quota dédié de ce montant pour ach de vos abonnements Azure. Dans un seul abonnement Azure, il est possible d'utiliser une plus grande quantité de quotas TPM et RPM pour un modèle et un type de déploiement donnés, tant que vous disposez de ressources et de déploiements de modèles répartis dans plusieurs régions.

Niveaux de quotas

Nous introduisons des niveaux de quota pour améliorer l’expérience des modèles Foundry et réduire les frictions à mesure que les charges de travail sont mises à l’échelle. Les quotas augmenteront automatiquement avec l’utilisation, ce qui permet d’éviter les erreurs de limite de débit tout en créant un environnement plus équitable pour tous les utilisateurs. Sept niveaux seront mis à disposition : niveau gratuit et niveaux 1 à 6 , avec le niveau 6 offrant les quotas les plus élevés. Le niveau d’affectation initial d’un client est basé sur son utilisation actuelle de ce modèle et de sa relation actuelle avec Microsoft, comme l’état Contrat Entreprise (EA ou MCA-E). 

Qu’est-ce qui change pour moi ?

Auparavant, Foundry proposait uniquement des niveaux de quota par défaut et d’entreprise pour le type d’offre à la carte, avec un écart important entre chaque niveau et un processus plus long pour présenter une requête pour une augmentation. Avec les niveaux de quota, tous les utilisateurs reçoivent un niveau avec des quotas égaux ou supérieurs à leurs niveaux précédents. Toutes les augmentations de quota précédemment approuvées sont conservées et ne seront pas réduites. À mesure que l’utilisation augmente, Foundry augmente automatiquement les quotas en déplaçant les utilisateurs vers des niveaux supérieurs, et un quota supplémentaire peut toujours être demandé via le formulaire de quota.

Comment un client passera-t-il automatiquement d’un niveau à un autre, par exemple quels sont les critères de modification de niveau ? 

Les mises à niveau automatiques de niveau sont principalement basées sur les tendances de consommation des clients sur les modèles Foundry au fil du temps. Si l’utilisation d’un client augmente de telle sorte que son niveau de quota actuel limite sa capacité à utiliser les modèles Foundry, le système met automatiquement à niveau le client vers le niveau supérieur suivant. La relation d’un client avec Microsoft est également prise en compte. Les clients disposant de relations Entreprise (y compris EA et MCA-E) avec Microsoft sont affectés à des niveaux de quota supérieurs. En outre, Microsoft envisagera également l'historique des paiements d'un client pour déterminer l'éligibilité aux mises à niveau automatiques. 

Puis-je désactiver les mises à niveau automatiques ?

Oui, vous pouvez refuser les mises à niveau automatiques et vous resterez dans votre niveau actuel, quelle que soit la consommation. Nous reconnaissons que certains de nos clients utilisent le quota pour gérer leur facturation. Ce n'est pas la Azure bonne pratique, cependant, nous comprenons que si votre système est configuré de cette façon, nous ne voulons pas l'interrompre. Vous pouvez en savoir plus sur la gestion de la facturation et les bonnes pratiques ici : Cost Management.

Pour désactiver, vous pouvez définir l’indicateur suivant sur NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Note

La fonctionnalité d’exclusion est en préversion et peut être susceptible d’être modifiée/supprimée à l’avenir.

Puis-je demander plus de quota ?

Oui, à l’aide du formulaire de demande de quota , vous pouvez toujours demander davantage de quota. Si la demande est approuvée, le niveau actuel reste le même, mais avec plus de quota attribué.

Comment vérifier le niveau de quota de mon abonnement ?

Vous pouvez actuellement vérifier le niveau de quota avec l’API du plan de contrôle :

curl -X GET \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

Référence des niveaux de quota

Niveau 1

Nom du modèle Type de déploiement Demandes par minute (RPM) Jetons par minute (TPM)
codex-mini GlobalStandard 1,000 1,000,000
aperçu de l'utilisation de l'ordinateur GlobalStandard 4,500 450 000
gpt-4.1 Norme de la Zone de Données 300 300,000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini Norme de la Zone de Données 2 000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5,000,000
gpt-4.1-mini Standard 6,000 6,000,000
gpt-4.1-nano Norme de la Zone de Données 2 000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5,000,000
gpt-4o Norme de la Zone de Données 300 / 10 sec 300,000
Aperçu audio de gpt-4o GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini Norme de la Zone de Données 10 000 1,000,000
gpt-4o-mini GlobalStandard 20,000 2,000,000
gpt-4o-mini-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-realtime-preview GlobalStandard 36 6,000
gpt-4o-aperçu-en-temps-réel GlobalStandard 36 6,000
gpt-5 Norme de la Zone de Données 3,000 300,000
gpt-5 GlobalStandard 10 000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini Norme de la Zone de Données 300 300,000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano Norme de la Zone de Données 2 000 2,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000
gpt-5-pro GlobalStandard 1,600 160,000
gpt-5.1 Norme de la Zone de Données 3,000 300,000
gpt-5.1 GlobalStandard 10 000 1,000,000
gpt-5.1 Standard 3,000 300,000
gpt-5.1-chat GlobalStandard 10 000 1,000,000
gpt-5.1-codex Norme de la Zone de Données 3,000 300,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10 000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 Norme de la Zone de Données 3,000 300,000
gpt-5.2 GlobalStandard 10 000 1,000,000
gpt-5.2-chat GlobalStandard 10 000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10 000 1,000,000
gpt-5.3-codex GlobalStandard 10 000 1,000,000
gpt-5.4 Norme de la Zone de Données 300 300,000
gpt-5.4 GlobalStandard 10 000 1,000,000
gpt-5.4-pro GlobalStandard 160 160,000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano Norme de la Zone de Données 2 000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5,000,000
gpt-5.5 Norme de la Zone de Données 0 0
gpt-5.5 GlobalStandard 0 0
gpt-chat-latest GlobalStandard 10 000 1,000,000
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 Norme de la Zone de Données 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 Norme de la Zone de Données 2 -
gpt-image-2 GlobalStandard 6 -
gpt-realtime GlobalStandard 200 100,000
model-router Norme de la Zone de Données 300 300,000
model-router GlobalStandard 1,000 1,000,000
o1 Norme de la Zone de Données 100 600,000
o1 GlobalStandard 500 3,000,000
o3 Norme de la Zone de Données 300 300,000
o3 GlobalStandard 1,000 1,000,000
O3-Deep-Research GlobalStandard 3,000 3,000,000
o3-mini Norme de la Zone de Données 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1,600,000
o4-mini Norme de la Zone de Données 300 / 10 sec 300,000
o4-mini GlobalStandard 1,000 1,000,000
text-embedding-3-large Norme de la Zone de Données 1,000 1,000,000
text-embedding-3-large GlobalStandard 1000 / 10 secondes 1,000,000
text-embedding-3-small Norme de la Zone de Données 1,000 1,000,000
text-embedding-3-small GlobalStandard 1000 / 10 secondes 1,000,000

Informations de référence sur les quotas et les limites

La section suivante vous fournit un guide rapide sur les quotas et limites par défaut qui s’appliquent à Azure OpenAI :

Nom de limite Valeur limite
Azure ressources OpenAI par région, par abonnement Azure 30.
Limites de quota GPT-image-1 par défaut 9 requêtes par minute
Limites de quota GPT-image-1-mini par défaut 12 requêtes par minute
Limites de quota GPT-image-1.5 par défaut 9 requêtes par minute
Limites de quota GPT-image-2 par défaut 9 requêtes par minute
Limites de quota Sora par défaut 60 requêtes par minute.
Limites de quota Sora 2 par défaut 2 demandes de travail1 par minute
Limites de quota par défaut de l'API de transcription audio-texte 3 requêtes par minute.
Nombre maximal de jetons d’invite par requête Varie par modèle. Pour plus d’informations, consultez Azure modèles OpenAI.
Nombre maximal de déploiements standard par ressource 32.
Nombre maximal de déploiements de modèles affinés 10.
Nombre total de travaux d’apprentissage par ressource 100.
Nombre maximal d’exécutions simultanées de travaux d’entraînement par ressource Formation standard et globale : 3 ;
Formation pour les développeurs : 5
Nombre maximal d’emplois de formation en file d’attente 20.
Nombre maximal de fichiers par ressource (réglage précis) 100.
Taille totale de tous les fichiers par ressource (réglage précis) 1 Go.
Durée maximale du travail d’apprentissage (échec du travail en cas de dépassement) 720 heures.
Taille maximale du travail d’entraînement (tokens in training file) x (# of epochs) 2 milliards.
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) 16 Mo.
Nombre maximal d’entrées dans le tableau avec /embeddings 2,048.
Nombre maximal de jetons par requête /embeddings (total sur l’ensemble des entrées) 300,000.
Nombre maximal de /chat/completions messages 2,048.
Nombre maximal de /chat/completions fonctions 128.
Nombre maximal d’outils /chat/completions 128.
Nombre maximal d’unités de débit approvisionnées par déploiement 100,000.
Nombre maximal de fichiers par assistant ou thread 10 000 lors de l’utilisation de l’API ou du portail Microsoft Foundry.
Taille de fichier maximale pour les assistants et réglage précis 512 Mo via l’API

200 Mo via le portail Foundry.
Nombre maximal de demandes de chargement de fichiers par ressource 30 requêtes par seconde.
Taille maximale pour tous les fichiers chargés pour les assistants 200 Go.
Limite de jetons des assistants 2 000 000 limite de jetons.
GPT-4o et GPT-4.1 nombre maximal d’images par requête (nombre d’images dans le tableau de messages ou l’historique des conversations) 50.
GPT-4 vision-preview et GPT-4 turbo-2024-04-09 nombre maximal de jetons par défaut 16.

Augmentez la valeur du max_tokens paramètre pour éviter les réponses tronquées. GPT-4o Le nombre maximal de jetons est défini par défaut sur 4 096.
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API2 10.
Limite des caractères de message 1,048,576.
Taille des messages pour les fichiers audio 20 Mo.

1 Le quota Sora 2 RPM prend en compte uniquement les requêtes de tâches vidéo. D’autres types de requêtes ne sont pas limités par taux.

2 Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés, qui sont passés par le pipeline et retournés. Certains clients dépassent désormais ce nombre d’en-têtes, ce qui entraîne des erreurs HTTP 431. Il n’existe aucune solution pour cette erreur, autre que pour réduire le volume d’en-tête. Dans les futures versions d’API, nous ne transmettons pas d’en-têtes personnalisés. Nous recommandons aux clients de ne pas se fier aux en-têtes personnalisés dans les futures architectures système.

Note

Les limites de quota sont sujettes à modification.

Limites de traitement par lots

Nom de limite Valeur limite
Nombre maximal de fichiers d’entrée Batch - (sans expiration) 500
Nombre maximal de fichiers d'entrée Batch - (durée d'expiration définie) 10 000
Taille maximale du fichier d’entrée 200 Mo
Taille maximale du fichier d’entrée - Apportez votre propre stockage (BYOS) 1 Go
Nombre maximal de requêtes par fichier 100,000

Note

Les limites de fichiers batch ne s’appliquent pas aux fichiers de sortie (par exemple, result.jsonlet error.jsonl). Pour supprimer les limites du fichier d’entrée par lot, utilisez Batch avec Stockage Blob Azure.

Quota de lots

Le tableau indique la limite de quota de lots. Les valeurs de quota pour le lot global sont représentées en termes de jetons mis en file d’attente. Lorsque vous envoyez un fichier pour le traitement par lots, le nombre de jetons dans le fichier est compté. Jusqu'à ce que le travail par lots atteigne un état terminal, ces jetons sont comptabilisés dans votre limite totale de jetons mis en file d'attente.

Lot global

Modèle Entreprise et MCA-E Par défaut Abonnements mensuels basés sur des cartes de crédit Abonnements MSDN Azure pour étudiants, essais gratuits
gpt-4.1 5B 200M 50 M 90 000 k N/A
gpt-4.1 mini 15B 1B 50 M 90 000 k N/A
gpt-4.1-nano 15B 1B 50 M 90 000 k N/A
gpt-4o 5B 200M 50 M 90 000 k N/A
gpt-4o-mini 15B 1B 50 M 90 000 k N/A
gpt-4-turbo 300 M 80M 40 M 90 000 k N/A
gpt-4 150 millions 30M 5 Mo 100 Ko N/A
o3-mini 15B 1B 50 M 90 000 k N/A
o4-mini 15B 1B 50 M 90 000 k N/A
gpt-5 5B 200M 50 M 90 000 k N/A
gpt-5.1 5B 200M 50 M 90 000 k N/A

B = milliards | M = million | K = mille

Lot de zones de données

Modèle Entreprise et MCA-E Par défaut Abonnements mensuels basés sur des cartes de crédit Abonnements MSDN Azure pour étudiants, essais gratuits
gpt-4.1 500M 30M 30M 90 000 k N/A
gpt-4.1-mini 1.5B 100M 50 M 90 000 k N/A
gpt-4o 500M 30M 30M 90 000 k N/A
gpt-4o-mini 1.5B 100M 50 M 90 000 k N/A
o3-mini 1.5B 100M 50 M 90 000 k N/A
gpt-5 5B 200M 50 M 90 000 k N/A
gpt-5.1 5B 200M 50 M 90 000 k N/A

GPT-OSS

Modèle Jetons par minute (TPM) Demandes par minute (RPM)
gpt-oss-120b 5 Millions 5 K

Niveaux d’utilisation

Les déploiements globaux standard utilisent l’infrastructure mondiale de Azure. Ils routent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. De même, les déploiements Standard de zone de données vous permettent d’utiliser l’infrastructure globale de Azure pour router dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Cette pratique permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent voir une plus grande variabilité dans la latence de réponse.

Les niveaux d'utilisation Azure OpenAI sont conçus pour fournir des performances cohérentes pour la plupart des clients avec des niveaux de trafic de faible à moyen. Chaque niveau d’utilisation définit le débit maximal (jetons par minute) que vous pouvez attendre avec une latence prévisible. Lorsque votre utilisation reste dans votre niveau attribué, la latence reste stable et les temps de réponse sont cohérents.

Que se passe-t-il si vous dépassez votre niveau d’utilisation ?

  • Si votre débit de requête dépasse votre niveau d’utilisation, en particulier pendant les périodes de forte demande, votre latence de réponse peut augmenter considérablement.
  • La latence peut varier et, dans certains cas, peut être plus de deux fois plus élevée que lorsque vous utilisez votre niveau d’utilisation.
  • Cette variabilité est la plus notable pour les clients disposant d’un usage soutenu élevé ou de modèles de trafic en rafale.

Si vous rencontrez 429 erreurs ou remarquez une variabilité de latence accrue, voici ce que vous devez faire :

  • Demander une augmentation de quota : visitez le portail Azure pour demander un quota plus élevé pour votre abonnement.
  • Envisagez la mise à niveau vers une offre Premium (PTU) : pour les charges de travail critiques en matière de latence ou à volume élevé, effectuez une mise à niveau vers des Unités de Débit Approvisionné (UDA). PTU fournit des ressources dédiées, une capacité garantie et une latence prévisible, même à grande échelle. Il s’agit du meilleur choix pour les applications stratégiques qui nécessitent des performances cohérentes.
  • Surveillez votre utilisation : passez régulièrement en revue vos métriques d'utilisation dans le portail Azure pour vous assurer que vous travaillez dans vos limites de niveau. Ajustez votre charge de travail ou votre stratégie de déploiement en fonction des besoins.

Vous pouvez recevoir des réponses 429 (Trop de demandes), même lorsque les métriques d’utilisation des jetons apparaissent sous votre quota. Pour obtenir une explication de la raison pour laquelle cela se produit, voir Pourquoi vous pouvez voir 429s même lorsque les métriques d’utilisation des jetons sont inférieures au quota.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent voir une plus grande variabilité dans la latence de réponse. L’utilisation d’un client est définie par modèle. C'est le nombre total de jetons consommés dans tous les déploiements, dans tous les abonnements et toutes les régions, pour un locataire donné.

Note

Les niveaux d’utilisation s’appliquent uniquement aux types de déploiement Standard, Standard de la zone de données et Standard global. Les niveaux d'utilisation ne s'appliquent pas aux déploiements globaux de traitement par lots et de débit provisionné.

Standard global, Standard de zone de données et Standard

Modèle Niveaux d’utilisation mensuels
gpt-5 32 milliards de jetons
gpt-5-mini 160 milliards de jetons
gpt-5-nano 800 milliards de jetons
gpt-5-chat 32 milliards de jetons
gpt-4 + gpt-4-32k (toutes les versions) 6 milliards de jetons
gpt-4o 12 milliards de jetons
gpt-4o-mini 85 milliards de jetons
o3-mini 50 milliards de jetons
o1 4 milliards de jetons
o4-mini 50 milliards de jetons
o3 5 milliards de jetons
gpt-4.1 30 milliards de jetons
gpt-4.1-mini 150 milliards de jetons
gpt-4.1-nano 550 milliards de jetons

Bonnes pratiques générales pour rester dans les limites de taux

Pour réduire les problèmes liés aux limites de débit, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez la logique de nouvelle tentative dans votre application.
  • Évitez les modifications nettes dans la charge de travail. Augmentez progressivement la charge de travail.
  • Testez différents modèles d’augmentation de charge.
  • Augmentez le quota affecté à votre déploiement. Déplacez le quota à partir d’un autre déploiement, si nécessaire.

Pour obtenir des informations détaillées sur les meilleures pratiques, des exemples de code de nouvelle tentative avec délai d’attente croissant et un guide de résolution des erreurs 429, consultez Gérer le quota d’Azure OpenAI dans Microsoft Foundry Models.

Demander une augmentation de quota

Soumettez le formulaire de demande d’augmentation de quota afin de demander des augmentations de quota pour les modèles Foundry commercialisés par Azure, les modèles Azure OpenAI et les modèles Anthropic. À l'exception des modèles Anthropic, modèles des partenaires et de la communauté ne prennent pas en charge les augmentations de quotas.

Les demandes d’augmentation de quota sont traitées dans l’ordre dans lequel elles sont reçues, et la priorité est accordée aux clients qui utilisent activement leur allocation de quota existante. Les demandes qui ne répondent pas à cette condition peuvent être refusées.

Limites de capacité de quota régionale

Vous pouvez afficher la disponibilité des quotas par région pour votre abonnement dans le portail Foundry.

Pour vérifier les quotas et la capacité de manière programmatique, consultez Vérifier les quotas et la capacité de manière programmatique dans le guide de gestion des quotas. Cette section couvre deux API REST complémentaires : l’API Utilisation pour la vérification de la consommation par rapport aux limites et l’API Capacités de modèle pour la vérification de la capacité de déploiement disponible par modèle et par région.

Note

Actuellement, le portail Foundry et les API de capacité retournent des informations de quota et de capacité pour les modèles mis hors service et ne sont plus disponibles pour les nouveaux déploiements.