Share via


Intégration des unités de débit approvisionnées

Cet article vous guide tout au long du processus d’intégration des unités de débit approvisionnées (PTU). Une fois que vous avez terminé l’intégration initiale, nous vous recommandons de faire référence au guide de démarrage des PTU.

Remarque

Les unités de débit approvisionnées (PTU) sont différentes des quotas standard dans Azure OpenAI et ne sont pas disponibles par défaut. Pour en savoir plus sur cette offre, contactez l'équipe de votre compte Microsoft.

Quand utiliser des unités de débit approvisionnées (PTU)

Vous devez envisager de passer du paiement à l’utilisation au débit approvisionné quand vous avez des exigences de débit prévisibles et bien définies. Cela se produit généralement quand l’application est prête pour la production ou a déjà été déployée en production et qu’il existe une compréhension du trafic attendu. Les utilisateurs pourront prévoir exactement la capacité requise et éviter une facturation non prévue.

Scénarios typiques d’unités de débit approvisionnées

  • Une application qui est en production ou prête pour la production.
  • L’application a des attentes d’utilisation/de capacité prévisibles.
  • L’application a des exigences sensibles de latence/en temps réel.

Remarque

Dans des cas d’usage d’agent ou d’appel de fonction, l’utilisation du jeton peut être variable. Vous devez comprendre l’utilisation prévue de vos jetons par minute (TPM) en détail avant de migrer les charges de travail vers les PTU.

Dimensionnement et estimation : géré approvisionné uniquement

La détermination de la quantité appropriée de débit approvisionné ou de PTU nécessaire à votre charge de travail est une étape essentielle pour optimiser les performances et les coûts. Cette section explique comment utiliser l’outil de planification de la capacité Azure OpenAI. L’outil vous fournit une estimation des PTU requises pour répondre aux besoins de votre charge de travail.

Estimation du débit approvisionné et du coût

Pour obtenir une estimation rapide de votre charge de travail, ouvrez le planificateur de capacité dans Azure OpenAI Studio. Le planificateur de capacité se trouve sous Gestion>Quotas>Approvisionné.

L’option Approvisionné et le planificateur de capacité sont disponibles uniquement dans certaines régions du volet Quota. Si vous ne voyez pas cette option, définissez la région de quota sur Suède Centre pour la rendre disponible. Entrez les paramètres suivants en fonction de votre charge de travail.

Input Description
Modèle Modèle OpenAI que vous envisagez d’utiliser. Par exemple : GPT-4
Version Version du modèle que vous envisagez d’utiliser, par exemple 0614
Jetons d’invite Nombre de jetons dans l’invite pour chaque appel
Jetons de génération Nombre de jetons générés par le modèle sur chaque appel
Pic d’appels par minute Pic de charge simultanée sur le point de terminaison mesuré en appels par minute

Une fois que vous avez renseigné les détails requis, sélectionnez Calculer pour afficher les PTU suggérées pour votre scénario.

Capture d’écran de la page d’accueil d’Azure OpenAI Studio.

Remarque

Le planificateur de capacité donne une estimation basée sur des critères d’entrée simples. La façon la plus précise de déterminer votre capacité est de comparer un déploiement avec une charge de travail représentative de votre cas d’utilisation.

Présentation du modèle d’achat de débit approvisionné

Contrairement aux services Azure où vous êtes facturé en fonction de l’utilisation, la fonctionnalité de débit approvisionné Azure OpenAI est achetée sous la forme d’un engagement mensuel renouvelable. Cet engagement est facturé à votre abonnement lors de la création et à chaque renouvellement mensuel. Lorsque vous intégrez le débit approvisionné, vous devez créer un engagement sur chaque ressource Azure OpenAI où vous envisagez de créer un déploiement approvisionné. Les PTU que vous achetez de cette façon sont disponibles pour être utilisées lors de la création de déploiements sur ces ressources.

Le nombre total de PTU que vous pouvez acheter via des engagements est limité à la quantité de quota de débit approvisionné qui est affecté à votre abonnement. Le tableau suivant compare d’autres caractéristiques des quotas de débit approvisionné et des engagements de débit approvisionné.

Rubrique Quota Engagements
Objectif Octroie l’autorisation de créer des déploiements approvisionnés et fixe la limite supérieure de la capacité pouvant être utilisée Véhicule d’achat pour la capacité de débit approvisionné
Durée de vie Le quota peut être supprimé de votre abonnement s’il n’est pas acheté via un engagement dans les cinq jours suivant son octroi La durée minimale est d’un mois, avec un comportement de renouvellement automatique sélectionnable par le client. Un engagement n’est pas annulable et ne peut pas être déplacé vers une nouvelle ressource tant qu’il est actif
Étendue Le quota est spécifique à un abonnement et à une région, et est partagé entre toutes les ressources Azure OpenAI Les engagements sont un attribut d’une ressource Azure OpenAI et sont étendus aux déploiements au sein de cette ressource. Un abonnement peut contenir autant d’engagements actifs qu’il existe des ressources.
Granularité Le quota est accordé à une famille de modèles (par exemple, GPT-4), mais peut être partagé entre les versions de modèle au sein de la famille Les engagements ne sont pas spécifiques au modèle ou à la version. Par exemple, l’engagement 1 000 PTU d’une ressource peut couvrir les déploiements de GPT-4 et GPT-35-Turbo
Garantie de capacité Le fait d’avoir un quota ne garantit pas que la capacité est disponible lorsque vous créez le déploiement La disponibilité de la capacité pour couvrir les PTU engagées est garantie tant que l’engagement est actif.
Augmentations/diminutions Un nouveau quota peut être demandé et approuvé à tout moment, indépendamment des dates de renouvellement de votre engagement Le nombre de PTU couvertes par un engagement peut être augmenté à tout moment, mais ne peut être réduit qu’au moment du renouvellement.

Le quota et les engagements fonctionnent ensemble pour régir la création de déploiements au sein de vos abonnements. Pour créer un déploiement approvisionné, deux critères doivent être remplis :

  • Le quota doit être disponible pour le modèle souhaité dans la région et l’abonnement souhaités. Cela signifie que vous ne pouvez pas dépasser la limite de votre abonnement/région pour le modèle.
  • Les PTU engagées doivent être disponibles sur la ressource où vous créez le déploiement. (La capacité que vous attribuez au déploiement est payante).

Propriétés d’engagement et modèle de facturation

Un engagement comprend plusieurs propriétés.

Propriété Description Quand il est défini
Ressource Azure OpenAI La ressource hébergeant l’engagement Création d’un engagement
PTU engagées Nombre de PTU couvertes par l’engagement. Initialement fixé à la création de l’engagement, et peut être augmenté à tout moment, mais pas diminué.
Terme Le terme de l’engagement. Un engagement expire un mois après sa date de création. La stratégie de renouvellement définit ce qui se passe ensuite. Création d’un engagement
Date d’expiration La date d’expiration de l’engagement. L’heure d’expiration est minuit UTC. Initialement, 30 jours à partir de la création. Toutefois, la date d’expiration change si l’engagement est renouvelé.
Procédure de renouvellement Il existe trois options relatives à l’expiration de l’engagement :

- Renouveler automatiquement : une nouvelle période d’engagement commence pour 30 jours supplémentaires avec le nombre actuel de PTU
- Renouveler automatiquement avec différents paramètres : ce paramètre est identique à celui de Renouveler automatiquement, sauf que le nombre de PTU engagées lors du renouvellement peut être diminué
- Ne pas renouveler automatiquement : à l’expiration, l’engagement se termine et n’est pas renouvelé.
Initialement défini lors de la création de l’engagement et peut être modifié à tout moment.

Frais d'engagement

Les engagements de débit approvisionné génèrent des frais pour votre abonnement Azure aux moments suivants :

  • Lors de la création de l’engagement. Les frais sont calculés en fonction du taux de PTU mensuel actuel et du nombre de PTU engagées. Vous recevrez des frais uniques en amont sur votre facture.

  • Au renouvellement de l’engagement. Si la stratégie de renouvellement est définie sur le renouvellement automatique, de nouveaux frais mensuels sont générés en fonction des PTU engagées dans la nouvelle période. Ces frais s’affichent sous forme de frais uniques en amont sur votre facture.

  • Lorsque de nouvelles PTU sont ajoutées à un engagement existant. Les frais sont calculés en fonction du nombre de PTU ajoutées à l’engagement, au prorata horaire à la fin de la période d’engagement existante. Par exemple, si 300 PTU sont ajoutées à un engagement existant de 900 PTU exactement à la moitié de la période, il y a des frais au moment de l’ajout de l’équivalent de 150 PTU (300 PTU calculées au prorata de la date d’expiration de l’engagement). Si l’engagement est renouvelé, les frais du mois suivant correspondront au nouveau total de 1 200 PTU.

Tant que le nombre de PTU déployées dans une ressource est couvert par l’engagement de la ressource, vous verrez uniquement les frais d’engagement. Toutefois, si le nombre de PTU déployées dans une ressource devient supérieur à celui des PTU engagées de la ressource, les PTU excédentaires seront facturées en tant que dépassement à un taux horaire. En règle générale, la seule façon dont ce dépassement se produit est si un engagement expire ou est réduit lors de son renouvellement pendant que la ressource contient des déploiements. Par exemple, si un engagement de 300 PTU expire sur une ressource avec 300 PTU déployés, les PTU déployées ne sont plus couvertes par un engagement. Une fois la date d’expiration atteinte, un frais de dépassement horaire est facturé sur l’abonnement en fonction des 300 PTU excédentaires.

Le taux horaire est supérieur au taux d’engagement mensuel et les frais dépassent le taux mensuel en quelques jours. Il existe deux façons de mettre fin aux frais de dépassement horaire :

  • Supprimez ou réduisez les déploiements afin qu’ils n’utilisent pas plus de PTU que celles qui ont fait l’objet d’un engagement.
  • Créer un nouvel engagement sur la ressource pour couvrir les PTU déployées.

Achats et gestion des engagements

Planification de vos engagements

Lorsque vous recevez la confirmation que le quota d’unités de débit approvisionnées (PTU) est attribué à un abonnement, vous devez créer des engagements sur les ressources cibles (ou étendre les engagements existants) pour rendre le quota utilisable pour les déploiements.

Avant de créer des engagements, planifiez la façon dont les déploiements provisionnés seront utilisés et les ressources Azure OpenAI qui les hébergeront. Les engagements ont une durée minimale d’un mois et leur taille ne peut pas être réduite jusqu’à la fin de la période. Ils ne peuvent pas également être déplacés vers de nouvelles ressources une fois créés. Enfin, la somme de vos PTU validées ne peut pas être supérieure à votre quota : les PTU engagées sur une ressource ne sont plus disponibles pour s’engager sur une autre ressource jusqu’à l’expiration de l’engagement. Avoir un plan clair sur les ressources qui seront utilisées pour les déploiements approvisionnés et la capacité que vous avez l’intention de leur appliquer (pour au moins un mois) aidera à assurer une expérience optimale avec votre configuration de débit approvisionné.

Par exemple :

  • Ne créez pas d’engagement et de déploiement sur une ressource temporaire à des fins de validation. Vous serez obligé d’utiliser cette ressource pendant au moins un mois. Au lieu de cela, si vous prévoyez d’utiliser les PTU sur une ressource de production, créez l’engagement et testez le déploiement sur cette ressource dès le départ.

  • Calculez le nombre de PTU à engager sur une ressource en fonction du nombre, du modèle et de la taille des déploiements que vous avez l’intention de créer, en gardant à l’esprit le nombre minimum de PTU que chaque modèle requiert pour créer un déploiement.

    • Exemple 1 : GPT-4-32K nécessite un minimum de 200 PTU à déployer. Si vous créez un engagement de seulement 100 PTU sur une ressource, vous n’aurez pas suffisamment de PTU engagées pour y déployer GPT-4-32K

    • Exemple 2 : si vous avez besoin de créer plusieurs déploiements sur une ressource, additionnez les PTU requises pour chaque déploiement. Un déploiement de ressources de production hébergeant 300 PTU de GPT-4 et 500 PTU de GPT-4-32K nécessite un engagement d’au moins 800 PTU pour couvrir les deux déploiements.

  • Distribuez ou consolidez les PTU en fonction des besoins. Par exemple, un quota total de 1 000 PTU peut être distribué sur plusieurs ressources si nécessaire pour prendre en charge vos déploiements. Il peut être engagé sur une ressource unique pour prendre en charge un ou plusieurs déploiements totalisant jusqu’à 1 000 PTU ou distribué sur plusieurs ressources (par exemple, un développement et une ressource de production) tant que le nombre total de PTU engagées est inférieur ou égal au quota de 1 000.

  • Tenez compte des exigences opérationnelles dans votre plan. Par exemple :

    • Conventions d’affectation de noms des ressources requises par l’organisation
    • Stratégies de continuité d’activité nécessitant plusieurs déploiements d’un modèle par région, peut-être sur différentes ressources Azure OpenAI

Gestion des engagements de débit approvisionnés

Les engagements de débit approvisionnés sont créés et gérés à partir de l’affichage Gérer les engagements dans Azure OpenAI Studio. Vous pouvez accéder à cet affichage en sélectionnant Gérer les engagements dans le volet Quota :

Capture d’écran de l’interface utilisateur d’achat d’engagement avec des notifications.

Dans la vue Gérer les engagements, vous pouvez effectuer plusieurs opérations :

  • Acheter de nouveaux engagements ou modifiez les engagements existants.
  • Superviser tous les engagements dans votre abonnement.
  • Identifier et prendre des mesures sur les engagements susceptibles de provoquer une facturation inattendue.

Les sections ci-dessous vous aideront à effectuer ces tâches.

Achat d’un engagement de débit approvisionné

Avec votre plan d’engagement prêt, l’étape suivante consiste à créer les engagements. Les engagements sont créés manuellement via Azure OpenAI Studio et nécessitent que l’utilisateur qui crée l’engagement ait le rôle Contributeur ou Contributeur Cognitive Services au niveau de l’abonnement.

Pour chaque nouvel engagement que vous devez créer, procédez comme suit :

  1. Lancez la boîte de dialogue d’achat de débit approvisionné en sélectionnant Quotas>Approvisionné>Gérer les engagements.

Capture d’écran du dialogue d’achat.

  1. Sélectionnez Acheter un engagement.

  2. Sélectionnez la ressource Azure OpenAI et achetez l’engagement. Vous verrez vos ressources divisées en ressources avec des engagements existants, que vous pouvez modifier et les ressources qui n’ont pas actuellement d’engagement.

Setting Notes
Sélectionner une ressource Choisissez la ressource dans laquelle vous allez créer le déploiement approvisionné. Une fois que vous avez acheté l’engagement, vous ne pourrez pas utiliser les PTU sur une autre ressource jusqu’à l’expiration de l’engagement actuel.
Sélectionner un type d’engagement Sélectionnez Provisionné. (Approvisionné équivaut à Approvisionné managé)
Quota approvisionné non validé actuel Nombre de PTU actuellement disponibles pour vous permettre de valider cette ressource.
Montant à valider (PTU) Choisissez le nombre de PTU que vous engagez. Vous pouvez augmenter ce nombre pendant la période d’engagement, mais pas le diminuer. Entrez les valeurs par incréments de 50 pour le type d’engagement Approvisionné.
Niveau d’engagement pour la période actuelle La période d’engagement est définie sur un mois.
Paramètres de renouvellement Renouvellement automatique aux PTU actuelles
Renouvellement automatique à des PTU inférieures
Ne pas renouveler automatiquement
  1. Sélectionnez Achat. Une boîte de dialogue de confirmation s’affiche. Une fois que vous avez confirmé, vos PTU sont validées et vous pouvez les utiliser pour créer un déploiement approvisionné. |

Capture d’écran de l’interface utilisateur d’achat d’engagement.

Important

Un nouvel engagement est facturé à l’avance pour toute la durée. Si les paramètres de renouvellement sont définis sur renouvellement automatique, vous serez facturé à nouveau à chaque date de renouvellement en fonction des paramètres de renouvellement.

Modifier un engagement de débit approvisionné existant

Dans la vue Gérer les engagements, vous pouvez également modifier un engagement existant. Il existe deux types de modifications que vous pouvez apporter à un engagement existant :

  • Vous pouvez ajouter des PTU à l’engagement.
  • Vous pouvez modifier les paramètres de renouvellement.

Pour modifier un engagement, sélectionnez-le, puis sélectionnez Modifier l’engagement.

Ajout d’unités de débit approvisionnées à des engagements existants

L’ajout de PTU à un engagement existant vous permet de créer des déploiements plus volumineux ou plus nombreux au sein de la ressource. Vous pouvez le faire à tout moment pendant la durée de votre engagement.

Capture d’écran de l’interface utilisateur d’achat d’engagement avec une augmentation du montant de la valeur d’engagement.

Important

Lorsque vous ajoutez des PTU à un engagement, elles sont facturées immédiatement, à un montant calculé au prorata de la date actuelle jusqu’à la fin de la période d’engagement existante. L’ajout de PTU ne réinitialise pas le terme d’engagement.

Modification des paramètres de renouvellement

Vous pouvez modifier les paramètres de renouvellement de l’engagement à tout moment avant la date d’expiration de votre engagement. Les raisons pour lesquelles vous souhaiterez peut-être modifier les paramètres de renouvellement incluent la fin de votre utilisation du débit approvisionné en définissant l’engagement sur ne pas renouveler automatiquement, ou en réduisant l’utilisation du débit approvisionné en réduisant le nombre de PTU qui seront validées au cours de la prochaine période.

Important

Si vous autorisez un engagement à expirer ou à diminuer la taille de telle sorte que les déploiements sous la ressource nécessitent plus de PTU que vous n’en avez dans votre engagement de ressource, vous ferez l’objet de frais de dépassement horaires pour toute PTU excédentaire. Par exemple, une ressource qui a des déploiements qui totalisent 500 PTU et un engagement pour 300 PTU généreront des frais de dépassement horaire pour 200 PTU.

Superviser les engagements et empêcher les facturations inattendues

Le volet Gérer les engagements fournit une vue d’ensemble de l’abonnement de toutes les ressources avec les engagements et l’utilisation de PTU dans un abonnement Azure donné. Les éléments suivants sont particulièrement intéressants :

  • PTU validées, déployées et utilisées : ces chiffres représentent la taille de vos engagements et la quantité utilisée par les déploiements. Optimisez votre investissement en utilisant l’ensemble de vos PTU validées.
  • Stratégie d’expiration et date : la date d’expiration et la stratégie vous indiquent quand un engagement expire et ce qui se passe quand il le fait. Un engagement défini pour le renouvellement automatique génère un événement de facturation à la date de renouvellement. Pour les engagements arrivant à expiration, veillez à supprimer les déploiements de ces ressources avant la date d’expiration pour empêcher la facturation de dépassement horaire. Les paramètres de renouvellement actuels d’un engagement.
  • Notifications : alertes concernant des conditions importantes telles que les engagements inutilisés et les configurations susceptibles d’entraîner des dépassements de facturation. Les dépassements de facturation peuvent être causés par des situations telles que le moment où un engagement a expiré et que les déploiements sont toujours présents, mais qu’ils sont passés à la facturation horaire.

Scénarios courants de gestion des engagements

Arrêt de l’utilisation du débit approvisionné

Pour mettre fin à l’utilisation du débit approvisionné et empêcher les frais de dépassement horaire après l’expiration de l’engagement, arrêtez les frais après l’expiration des engagements actuels. Vous devez effectuer deux étapes :

  1. Définissez la stratégie de renouvellement de tous les engagements sur Ne pas renouveler automatiquement.
  2. Supprimez les déploiements approvisionnés à l’aide du quota.

Déplacer un engagement/déploiement vers une nouvelle ressource dans le même abonnement/région

Dans Azure OpenAI Studio, il n’est pas possible de déplacer directement un déploiement ou un engagement vers une nouvelle ressource. Au lieu de cela, un nouveau déploiement doit être créé sur la ressource cible et le trafic déplacé vers celui-ci. Pour ce faire, un engagement acheté devra être établi sur la nouvelle ressource. Étant donné que les engagements sont facturés à l’avance pour une période de 30 jours, il est nécessaire d’effectuer ce déplacement avec l’expiration de l’engagement d’origine afin de réduire le chevauchement avec le nouvel engagement et la « double facturation » pendant le chevauchement.

Il existe deux approches pour effectuer cette transition.

Option 1 : basculement sans chevauchement

Cette option nécessite un temps d’arrêt, mais ne nécessite aucun quota supplémentaire et ne génère aucun coût supplémentaire.

Étapes Notes
Définissez la stratégie de renouvellement pour que l’engagement existant expire Cela empêchera l’engagement d’être renouveler et de générer d’autres frais
Avant l’expiration de l’engagement existant, supprimez son déploiement Le temps d’arrêt commence à ce stade et durera jusqu’à ce que le nouveau déploiement soit créé et que le trafic soit déplacé. Vous réduirez la durée en programmant la suppression le plus près possible de la date/heure d’expiration.
Après l’expiration de l’engagement existant, créez l’engagement sur la nouvelle ressource Réduisez le temps d’arrêt en effectuant cette étape et l’étape suivante dès que possible après expiration.
Créez le déploiement sur la nouvelle ressource et déplacez le trafic vers celui-ci

Option 2 : basculement superposé

Cette option permet d’éviter les temps d’arrêt grâce à la mise en service simultanée du déploiement existant et du nouveau déploiement. Cela nécessite de disposer d’un quota pour créer le nouveau déploiement et génère des coûts supplémentaires pour la durée des déploiements qui se chevauchent.

Étapes Notes
Définissez la stratégie de renouvellement pour que l’engagement existant expire Cela empêche l’engagement d’être renouveler et de générer d’autres frais.
Avant l’expiration de l’engagement existant :
1. Créez l’engagement sur la nouvelle ressource.
2. Créez le nouveau déploiement.
3. Basculez le trafic
4. Supprimez le déploiement existant
Veillez à laisser suffisamment de temps pour toutes les étapes avant l’expiration de l’engagement existant, sinon les frais de dépassement seront générés (voir la section suivante) pour les options.

Si la dernière étape prend plus de temps que prévu et se termine après l’expiration de l’engagement existant, il existe trois options pour réduire les frais de dépassement.

  • Effectuez un temps d’arrêt : supprimez le déploiement d’origine, puis effectuez le déplacement.
  • Payez le dépassement : conservez le déploiement d’origine et payez toutes les heures jusqu’à ce que vous ayez déplacé le trafic et supprimé le déploiement.
  • Réinitialisez l’engagement d’origine pour le renouveler une fois de plus. Cela vous donnera le temps d’effectuer le déplacement avec un coût connu.

Le paiement d’un dépassement et la réinitialisation de l’engagement d’origine généreront des frais au-delà de la date d’expiration d’origine. Le paiement de frais de dépassement peut être moins cher qu’un nouvel engagement d’un mois si vous n’avez besoin que d’un jour ou deux pour terminer le déplacement. Comparez les coûts des deux options pour trouver l’approche la moins chère.

Déplacer le déploiement vers une nouvelle région ou un nouvel abonnement

Les mêmes approches s’appliquent au déplacement de l’engagement et du déploiement au sein de la région, sauf que le quota disponible dans le nouvel emplacement sera requis dans tous les cas.

Afficher et modifier une ressource existante

Dans Azure OpenAI Studio, sélectionnez Quota>Approvisionné>Gérer les engagements et sélectionnez une ressource avec un engagement existant pour l’afficher/la modifier.

Étapes suivantes