Objet : Demande d'informations sur les modèles et quotas Azure OpenAI

Bania RABIA 0 Reputation points
2024-11-26T10:44:00.1066667+00:00

Bonjour,

Je souhaite développer un chatbot capable d'interagir avec mes documents SharePoint en mettant en place un système de génération augmentée par récupération (RAG). Ce projet est destiné à 80 utilisateurs, chacun effectuant en moyenne 5 requêtes par jour entre 9 h et 17 h. Chaque requête comprend environ 1 000 jetons en entrée et 1 000 jetons en sortie, soit un total de 2 000 jetons par requête.

 

De plus, j'envisage d'utiliser le modèle de langage pour transformer un fichier texte en JSON. Cette opération serait effectuée jusqu'à 3 fois par jour, chaque transformation impliquant également environ 1 000 jetons en entrée et 1 000 jetons en sortie.

 

Pour ce faire, j'envisage d'utiliser Azure OpenAI pour déployer les modèles suivants :

 

Ada pour les embeddings GPT-3.5 Turbo 0613 ou GPT-4o Mini, en fonction de leur disponibilité. Je suis conscient que le service Azure OpenAI impose certaines restrictions par rapport à l'utilisation directe des services d'OpenAI. Par exemple, Azure OpenAI offre des quotas et des limites spécifiques, tels que des limites de jetons par minute et des restrictions sur le nombre de déploiements simultanés.

 

Demande : Nous souhaitons intégrer ces deux modèles dans notre entreprise. Nous aimerions bénéficier de votre aide pour :

 

Comprendre les options de quotas disponibles afin de répondre à notre problématique. Clarifier les quotas pour le modèle GPT-4o Mini et <GPT-3.5 turbo 0613 dans le cadre d'un déploiement standard. Avec une consommation estimée maximale à 2 000 jetons par minute, les quotas par défaut semblent insuffisants pour répondre à nos besoins. Vous nous suggérez quoi? Enfin, nous souhaiterions une estimation des coûts : lorsqu’on demande une augmentation de quota, une tarification supplémentaire est-elle appliquée ou le coût reste-t-il identique à celui des appels API standards ?

 

Je reste à votre disposition pour tout complément d'information.

 

Cordialement,

Azure OpenAI Service
Azure OpenAI Service
An Azure service that provides access to OpenAI’s GPT-3 models with enterprise capabilities.
4,124 questions
{count} votes

1 answer

Sort by: Most helpful
  1. romungi-MSFT 48,916 Reputation points Microsoft Employee Moderator
    2024-11-27T06:03:43.72+00:00

    @Bania RABIA I think you should be able to request the quota that you need for the above use case. Once you create an Azure OpenAI resource, you will have an option to create deployments of base models under standard deployment and these models have a soft limit of quota to ensure they are optimally used. This soft limit can be increased from the quota page on Azure OpenAI portal and once the request is approved, the deployment should be using the increased quota for future requests.

    To know more about models, go to the models page to check in which region they are available and their limits. If you need additional or provisioned capacity you can use provisioned set of models for higher or provisioned capacity.

    For example, gpt-4o-mini might have a capacity of 2000k tokens already set in default account.

    User's image

    When you request additional quota you are not charged, you are charged only based on usage for pay as you go models. That is, based on token usage on input, cached input and output the billing is done. If you have any cost constraints, you can setup usage reports or budgets from azure portal to monitor usage and setup alerts. I hope this helps!!

    If this answers your query, do click Accept Answer and Yes for was this answer helpful. And, if you have any further query do let us know.

    1 person found this answer helpful.
    0 comments No comments

Your answer

Answers can be marked as Accepted Answers by the question author, which helps users to know the answer solved the author's problem.