Quotas et limites du service Azure OpenAI Service

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure Cognitive Services.

Informations de référence sur les quotas et les limites

Les sections suivantes fournissent un guide rapide sur les quotas et les limites qui s’appliquent à Azure OpenAI :

Nom de la limite Limite de la valeur
Ressources OpenAI par région par abonnement Azure 3
50 requêtes par minute et par modèle* Davinci-models (002 et versions ultérieures) : 120
Modèle ChatGPT : 300
Modèles GPT-4 : 18
Tous les autres modèles : 300
50 jetons par minute et par modèle* Davinci-models (002 et versions ultérieures) : 40 000
Modèle ChatGPT : 120 000
Modèle GPT-4 8k : 10 000
Modèle GPT-4 32k : 32 000
Tous les autres modèles : 120 000
Déploiements de modèles ajustés maximum* 2
Possibilité de déployer le même modèle sur plusieurs déploiements Non autorisé
Nombre total de travaux de formation par ressource 100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource 1
Nombre maximal de travaux de formation mis en file d’attente 20
Nombre maximal de fichiers par ressource 50
Taille totale de tous les fichiers par ressource 1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) 720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) 2 milliard

*Les limites sont susceptibles d’être modifiées. Nous prévoyons que vous aurez besoin de limites plus élevées à mesure que vous passerez à la production et que votre solution sera mise à l’échelle. Lorsque vous connaissez les exigences de votre solution, contactez-nous en demandant une augmentation de quota ici : https://aka.ms/oai/quotaincrease

Pour en savoir plus sur le nombre maximal de jetons pour les différents modèles, consultez l’article sur les modèles

Meilleures pratiques générales pour atténuer la limitation lors de la mise à l’échelle automatique

Pour réduire les problèmes liés à la limitation, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez une logique de nouvelle tentative dans votre application.
  • Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
  • Testez différents modèles d’augmentation de la charge.
  • Créez une autre ressource de service OpenAI dans la même région ou dans des régions différentes, puis distribuez la charge de travail entre celles-ci.

Les sections suivantes décrivent des cas spécifiques d’ajustement des quotas.

Comment demander des augmentations aux limites et quotas par défaut

À l’heure actuelle, en raison d’une demande massive, nous ne pouvons pas accepter de nouvelles demandes d’augmentation du quota ou des ressources.

 

Notes

Assurez-vous d’évaluer soigneusement l’utilisation actuelle de vos ressources, à l’approche de sa pleine capacité. N’oubliez pas que nous n’octroyons pas de ressource supplémentaire si une utilisation efficace des ressources existantes n’est pas observée.

Étapes suivantes

Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.