Quota dynamique Azure OpenAI (préversion)
Le quota dynamique est une fonctionnalité d’Azure OpenAI qui permet à un déploiement standard (paiement à l’utilisation) de tirer parti de manière opportune d’un quota plus important lorsqu’une capacité supplémentaire est disponible. Lorsque le quota dynamique est désactivé, votre déploiement peut traiter un débit maximal établi par le paramètre Jetons par minute (TPM). Si vous dépassez le paramètre TPM prédéfini, les requêtes retournent des réponses HTTP 429. Lorsque le quota dynamique est activé, le déploiement peut accéder à un débit plus élevé avant de retourner des réponses 429, vous permettant ainsi d’effectuer davantage d’appels plus tôt. Les requêtes supplémentaires sont toujours facturées aux tarifs habituels.
Le quota dynamique peut uniquement augmenter votre quota disponible de manière temporaire : il ne descend jamais en dessous de votre valeur configurée.
Quand utiliser le quota dynamique
Le quota dynamique est utile dans de nombreux scénarios, en particulier quand votre application peut utiliser une capacité supplémentaire de manière opportune ou quand l’application elle-même détermine la fréquence à laquelle l’API Azure OpenAI est appelée.
En règle générale, il est préférable de ne pas utiliser le quota dynamique si l’expérience fournie par votre application risque de se dégrader en raison de la volatilité ou de l’augmentation du quota.
Voici quelques scénarios dans lesquels vous pouvez envisager d’utiliser le quota dynamique :
- Traitement en bloc
- Création de résumés ou d’incorporations pour la génération augmentée de récupération (RAG)
- Analyse hors connexion des journaux pour la génération de métriques et d’évaluations
- Recherche à faible priorité
- Applications auxquelles un petit quota est alloué
Quand le quota dynamique entre-t-il en vigueur ?
Le back-end Azure OpenAI détermine si le quota dynamique est ajouté à différents déploiements ou supprimé de ceux-ci, à quel moment et dans quelle mesure. Il n’est ni prévu ni annoncé à l’avance et n’est pas prévisible. Pour tirer parti du quota dynamique, votre code d’application doit pouvoir émettre davantage de requêtes à mesure que les réponses HTTP 429 deviennent moins fréquentes. Azure OpenAI informe votre application quant vous avez atteint votre limite de quota en répondant avec un code HTTP 429 et en ne laissant plus passer d’appels d’API.
Comment le quota dynamique change-t-il les coûts ?
Les appels effectués au-delà du quota de base engendrent les mêmes coûts que les appels réguliers.
L’activation du quota dynamique sur un déploiement n’occasionne pas de coûts supplémentaires, bien que le débit accru puisse au final entraîner une augmentation des coûts en fonction de la quantité de trafic reçue par votre déploiement.
Remarque
Avec le quota dynamique, aucun quota ou débit « plafond » d’appels n’est appliqué. Azure OpenAI traite autant de requêtes que possible au-delà de votre quota de référence. Si vous devez contrôler vos dépenses même lorsque le quota est moins limité, le code de votre application doit retenir les requêtes en conséquence.
Comment utiliser le quota dynamique
Pour utiliser le quota dynamique, vous devez :
- Activer la propriété de quota dynamique dans votre déploiement Azure OpenAI.
- Vérifier que votre application peut tirer parti du quota dynamique.
Activer le quota dynamique
Pour activer le quota dynamique pour votre déploiement, vous pouvez accéder aux propriétés avancées de la configuration des ressources et l’activer :
Vous pouvez également l’activer par programmation avec la commande Azure CLI az rest
:
Remplacez {subscriptionId}
, {resourceGroupName}
, {accountName}
et {deploymentName}
par les valeurs appropriées pour votre ressource. Dans ce cas, accountName
est égal au nom de la ressource Azure OpenAI.
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
Comment faire pour savoir la quantité de débit que le quota dynamique ajoute à mon application ?
Pour monitorer son fonctionnement, vous pouvez suivre le débit de votre application dans Azure Monitor. Pendant la phase de préversion du quota dynamique, il n’y a pas de métrique ou de journal spécifique pour indiquer si le quota a été augmenté ou diminué dynamiquement. Le quota dynamique est moins susceptible d’être engagé pour votre déploiement s’il s’exécute dans des régions fortement utilisées et pendant les heures d’utilisation de pointe dans ces régions.
Étapes suivantes
- Découvrez-en plus sur le fonctionnement du quota.
- Apprenez-en davantage sur le monitoring d’Azure OpenAI.