Quotas et limites du service Azure OpenAI Service
Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.
Informations de référence sur les quotas et les limites
Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :
Nom de la limite | Limite de la valeur |
---|---|
Ressources OpenAI par région par abonnement Azure | 30 |
Limites de quota DALL-E 2 par défaut | 2 demandes simultanées |
Limites de quota DALL-E 3 par défaut | 2 unités de capacité (6 requêtes par minute) |
Limites de quota Whisper par défaut | 3 requêtes par minute |
Nombre maximal de jetons d’invite par requête | Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI |
Déploiements de modèles ajustés maximum | 5 |
Nombre total de travaux de formation par ressource | 100 |
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource | 1 |
Nombre maximal de travaux de formation mis en file d’attente | 20 |
Nombre maximal de fichiers par ressource (réglage précis) | 50 |
Taille totale de tous les fichiers par ressource (réglage précis) | 1 Go |
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) | 720 heures |
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) | 2 milliard |
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) | 16 Mo |
Nombre maximal ou entrées dans le tableau avec /embeddings |
2048 |
Nombre maximal de messages /chat/completions |
2048 |
Nombre maximal de fonctions /chat/completions |
128 |
Nombre maximal d’outils /chat completions |
128 |
Nombre maximal d’unités de débit approvisionnées par déploiement | 100 000 |
Nombre maximal de fichiers par assistant/thread | 10 000 lors de l’utilisation de l’API ou d’AI Studio. 20 lors de l’utilisation d’Azure OpenAI Studio. |
Taille de fichier maximale pour Assistants et réglage précis | 512 Mo |
Limite de jetons assistants | Limite de 2 000 000 jetons |
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations) | 10 |
Nombre maximum par défaut de jetons GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Augmentez la valeur du paramètre max_tokens pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096. |
Limites de quota régionales
Région | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o – GlobalStandard | gpt-4o-mini | gpt-4o-mini – GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 – finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 000 | - | 450 K 30 M |
- | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 30 M |
- | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 30 M |
- | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
450 K 2 m |
2 M 50 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 K | 60 K | 80 K | - | - | 450 K 30 M |
- | - | 240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 000 | - | 450 K 30 M |
- | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
KoreaCentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 30 M |
- | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polognecentre | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 30 M |
- | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 30 M |
- | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
centre de la suède | 40 K | 80 K | 150 K | 30 000 | 150 K 1 M |
450 K 30 M |
- | - | 300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
suisse nord | 40 K | 80 K | - | 30 000 | - | 450 K 30 M |
- | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 30 M |
- | - | 240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 30 M |
- | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 000 | 150 K 1 M |
450 K 30 M |
- | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
limites de taux gpt-4o
gpt-4o
et gpt-4o-mini
ont des niveaux de limite de débit avec des limites plus élevées pour certains types de clients.
norme mondiale gpt-4o
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
gpt-4o |
Contrat Entreprise | 30 M | 180 K |
gpt-4o-mini |
Contrat Entreprise | 50 M | 300 K |
gpt-4o |
Par défaut | 450 K | 2,7 K |
gpt-4o-mini |
Par défaut | 2 m | 12 K |
M = million | K = mille
norme gpt-4o
Modèle | Niveau | Limite de quota en jetons par minute (TPM) | Requêtes par minute |
---|---|---|---|
gpt-4o |
Contrat Entreprise | 1 M | 6K |
gpt-4o-mini |
Contrat Entreprise | 2 m | 12 K |
gpt-4o |
Par défaut | 150 K | 900 |
gpt-4o-mini |
Par défaut | 450 K | 2,7 K |
M = million | K = mille
Niveaux d’utilisation
Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et routent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.
La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.
GPT-4o standard mondial et standard
Modèle | Niveaux d’utilisation par mois |
---|---|
gpt-4o |
1,5 milliard de jetons |
gpt-4o-mini |
45 milliard de jetons |
Autres types d’offres
Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.
Niveau | Limite de quota en jetons par minute (TPM) |
---|---|
Microsoft Azure for Students, essais gratuits | 1 K (tous les modèles) |
Abonnements MSDN | Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K |
Abonnements mensuels basés sur des cartes de crédit 1 | Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K |
1 Ceci s’applique actuellement au type d’offre 0003P
Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.
Meilleures pratiques générales pour rester dans les limites du débit
Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :
- Implémentez une logique de nouvelle tentative dans votre application.
- Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
- Testez différents modèles d’augmentation de la charge.
- Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.
Comment demander des augmentations aux limites et quotas par défaut
Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure OpenAI Studio. Notez qu’en raison d’une demande écrasante, les demandes d’augmentation de quota sont acceptées et seront remplies par ordre de réception. La priorité sera accordée aux clients qui génèrent du trafic qui consomme l’allocation de quota existante, et votre requête peut être refusée si cette condition n’est pas remplie.
Pour les autres limites de débit, envoyez une demande de service.
Étapes suivantes
Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour