Quotas et limites du service Azure OpenAI Service
Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure Cognitive Services.
Informations de référence sur les quotas et les limites
Les sections suivantes fournissent un guide rapide sur les quotas et les limites qui s’appliquent à Azure OpenAI :
Nom de la limite | Limite de la valeur |
---|---|
Ressources OpenAI par région par abonnement Azure | 3 |
50 requêtes par minute et par modèle* | Davinci-models (002 et versions ultérieures) : 120 Modèle ChatGPT : 300 Modèles GPT-4 : 18 Tous les autres modèles : 300 |
50 jetons par minute et par modèle* | Davinci-models (002 et versions ultérieures) : 40 000 Modèle ChatGPT : 120 000 Modèle GPT-4 8k : 10 000 Modèle GPT-4 32k : 32 000 Tous les autres modèles : 120 000 |
Déploiements de modèles ajustés maximum* | 2 |
Possibilité de déployer le même modèle sur plusieurs déploiements | Non autorisé |
Nombre total de travaux de formation par ressource | 100 |
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource | 1 |
Nombre maximal de travaux de formation mis en file d’attente | 20 |
Nombre maximal de fichiers par ressource | 50 |
Taille totale de tous les fichiers par ressource | 1 Go |
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) | 720 heures |
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) | 2 milliard |
*Les limites sont susceptibles d’être modifiées. Nous prévoyons que vous aurez besoin de limites plus élevées à mesure que vous passerez à la production et que votre solution sera mise à l’échelle. Lorsque vous connaissez les exigences de votre solution, contactez-nous en demandant une augmentation de quota ici : https://aka.ms/oai/quotaincrease
Pour en savoir plus sur le nombre maximal de jetons pour les différents modèles, consultez l’article sur les modèles
Meilleures pratiques générales pour atténuer la limitation lors de la mise à l’échelle automatique
Pour réduire les problèmes liés à la limitation, il est judicieux d’utiliser les techniques suivantes :
- Implémentez une logique de nouvelle tentative dans votre application.
- Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
- Testez différents modèles d’augmentation de la charge.
- Créez une autre ressource de service OpenAI dans la même région ou dans des régions différentes, puis distribuez la charge de travail entre celles-ci.
Les sections suivantes décrivent des cas spécifiques d’ajustement des quotas.
Comment demander des augmentations aux limites et quotas par défaut
À l’heure actuelle, en raison d’une demande massive, nous ne pouvons pas accepter de nouvelles demandes d’augmentation du quota ou des ressources.
Notes
Assurez-vous d’évaluer soigneusement l’utilisation actuelle de vos ressources, à l’approche de sa pleine capacité. N’oubliez pas que nous n’octroyons pas de ressource supplémentaire si une utilisation efficace des ressources existantes n’est pas observée.
Étapes suivantes
Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.