Partager via


Gestion et augmentation des quotas de ressources avec Azure AI Foundry

Le quota offre la flexibilité nécessaire pour activement gérer l’allocation des limites de débit entre les déploiements au sein de votre abonnement. Cet article décrit le processus de gestion du quota pour vos machines virtuelles Azure AI Foundry et Azure OpenAI dans les modèles Foundry.

Azure utilise des limites et des quotas pour empêcher les dépassements de budget dus à des fraudes et pour respecter les contraintes de capacité d’Azure. C’est également un bon moyen de contrôler les coûts des administrateurs. Tenez compte de ces limites lors de la mise à l’échelle des charges de travail de production.

Dans cet article, vous découvrirez :

  • Limites par défaut sur les ressources Azure
  • Création de quotas au niveau du hub Azure AI Foundry.
  • Consultation de vos quotas et limites
  • Demande d’augmentations de quota et de limite

Le quota offre la flexibilité nécessaire pour activement gérer l’allocation des limites de débit entre les déploiements au sein de votre abonnement. Cet article décrit le processus de gestion du quota pour vos modèles Azure OpenAI dans Foundry.

Azure utilise des limites et des quotas pour empêcher les dépassements de budget dus à des fraudes et pour respecter les contraintes de capacité d’Azure. C’est également un bon moyen de contrôler les coûts des administrateurs. Tenez compte de ces limites lors de la mise à l’échelle des charges de travail de production.

Dans cet article, vous découvrirez :

  • Consultation de vos quotas et limites
  • Demande d’augmentations de quota et de limite

Considérations spéciales

Des quotas sont appliqués à chaque abonnement de votre compte. Si vous disposez de plusieurs abonnements, vous devez demander une augmentation de quota pour chaque abonnement.

Un quota est une limite de crédit sur les ressources Azure, pas une garantie de capacité. Si vous avez des besoins de capacité à grande échelle, contactez le support Azure pour augmenter votre quota.

Remarque

Le calcul Azure AI Foundry dispose d’un quota distinct du quota de calcul principal.

Les limites par défaut varient selon le type de catégorie d’offre, comme l’essai gratuit, le déploiement standard et la série de machines virtuelles (telles que Dv2, F et G).

Quota Azure AI Foundry

Les actions suivantes dans le Portail Azure AI Foundry consomment un quota :

  • Créer une instance de calcul.
  • Construire un index vectoriel.
  • Déploiement de modèles ouverts à partir du catalogue de modèles.

Calcul Azure AI Foundry

Le calcul Azure AI Foundry a une limite de quota par défaut sur le nombre de cœurs et le nombre de ressources de calcul uniques autorisées par région dans un abonnement.

  • Le quota sur le nombre de cœurs est réparti entre chaque famille de machines virtuelles et le nombre total cumulé de cœurs.
  • Le quota sur le nombre de ressources de calcul uniques par région est distinct du quota de cœurs par machine virtuelle, car il s’applique uniquement aux ressources de calcul managées

Pour augmenter les limites de calcul, vous pouvez demander une augmentation de quota dans Azure AI Foundry.

Les ressources disponibles includent :

  • Les cœurs dédiés par région ont une limite par défaut comprise entre 24 et 300 ressources en fonction du type de votre offre d’abonnement. Vous pouvez augmenter le nombre de cœurs dédiés par abonnement pour chaque famille de machines virtuelles. Les familles de machines virtuelles spécialisées comme NCv2, NCv3 ou ND ont une valeur initiale par défaut de zéro cœur. Les GPU ont également une valeur initiale par défaut de zéro cœur.
  • La limite de calcul totale par région a une limite par défaut de 500 par région au sein d’un abonnement donné. La limite peut être augmentée jusqu’à une valeur maximale de 2500 par région. Cette limite est partagée entre les instances de calcul et les déploiements de points de terminaison en ligne managés. Une instance de calcul est considérée comme un cluster à nœud unique à des fins de quota. Pour augmenter la limite de calcul totale, ouvrez une demande de support client en ligne.

Lors de l’ouverture de la demande de support pour augmenter la limite de calcul totale, fournissez les informations suivantes :

  1. Sélectionnez Technique pour le type de problème.

  2. Sélectionnez l’abonnement pour lequel vous souhaitez augmenter le quota.

  3. Sélectionnez Machine Learning en tant que type de service.

  4. Sélectionnez la ressource pour lequel vous souhaitez augmenter le quota.

  5. Dans le champ résumé, indiquez « Augmenter les limites de calcul totales »

  6. Sélectionnez Instance de calcul le type de problème et quota comme sous-type de problème.

    Capture d’écran de la page de soumission des demandes de quota de calcul dans le Portail Azure.

  7. Cliquez sur Suivant.

  8. Sur la page Détails supplémentaires , indiquez l’ID d’abonnement, la région, la nouvelle limite (entre 500 et 2 500) et la justification métier pour augmenter les limites de calcul totales pour cette région.

  9. Sélectionnez Créer pour envoyer le ticket de demande de support.

Quota partagé Azure AI Foundry

Azure AI Foundry fournit un pool de quotas partagés qui peut être utilisé simultanément par différents utilisateurs dans différentes régions. En fonction de la disponibilité, les utilisateurs peuvent accéder temporairement au quota depuis le pool partagé et utiliser ce quota pour effectuer des tests pendant une durée limitée. La durée spécifique dépend du cas d’usage. En utilisant temporairement le quota du pool de quotas, vous n’avez plus besoin de créer de ticket de support pour une augmentation de quota à court terme ou d’attendre que votre demande de quota soit approuvée avant de pouvoir poursuivre votre charge de travail.

L’utilisation du pool de quotas partagés est disponible pour tester l’inférence pour les modèles Llama-2, Phi, Nemotron, Mistral, Dolly et Deci-DeciLM dans le catalogue de modèles. Vous ne devez utiliser les quotas partagés que pour créer des points de terminaison de test temporaires, et non des points de terminaison de production. Pour les points de terminaison en production, vous devez demander un quota dédié. La facturation du quota partagé est basée sur l’utilisation.

Instances de conteneurs

Pour plus d’informations, consultez Limites de Container Instances.

Stockage

Stockage Azure a une limite de 250 comptes de stockage par région et par abonnement. Cette limite comprend à la fois les comptes de stockage Standard et Premium.

Afficher et demander des quotas dans le portail Azure AI Foundry

Utilisez des quotas pour gérer l’allocation cible de calcul et le quota de modèle entre plusieurs projets basés sur hub dans le même abonnement.

Par défaut, tous les hubs partagent le même quota que le quota au niveau de l’abonnement pour toutes les familles de machines virtuelles. Toutefois, vous pouvez définir un quota maximal pour les familles de machines virtuelles individuelles pour un contrôle de coût et une gouvernance plus précis sur les hubs d’un abonnement. Les quotas pour les familles de machines virtuelles individuelles vous permettent de partager la capacité et d’éviter les problèmes de contention de ressources.

Utiliser des quotas pour gérer l’allocation de quota de modèle entre plusieurs projets Foundry dans le même abonnement

  1. Dans le portail Azure AI Foundry, sélectionnez Centre de gestion en bas du menu de gauche.

    Capture d’écran du lien du Centre de gestion.

  2. Sélectionnez Quotas dans le menu de gauche.

    Capture d’écran des entrées de quota de modèles et de machines virtuelles dans la section Gestion.

  3. Dans la vue par quota, vous pouvez voir le quota pour les modèles dans la région Azure sélectionnée. Pour demander un quota, sélectionnez le modèle, puis sélectionnez Quota de demande.

    Capture d’écran de la page Quota de modèles dans le portail Azure AI Foundry.

    • Utilisez le bouton Afficher tous les quotas pour afficher tous les quotas ou uniquement le quota actuellement alloué.
    • Utilisez la liste déroulante Regrouper par pour regrouper la liste par Type de quota, Région et Modèle, Quota type, Modèle et Région ou Aucun. Le regroupement Aucun affiche une liste des modèles de déploiement.
    • Développez les regroupements pour afficher des informations sur modèles de déploiement spécifiques. Lors de l’affichage d’un modèle de déploiement, sélectionnez l’icône du crayon dans la colonne Allocation de quota pour modifier l’allocation de quota pour le modèle de déploiement.
    • Utilisez les graphiques le long de la page pour afficher plus de détails sur l’utilisation du quota. Les graphiques sont interactifs. Pointer une section du graphique affiche plus d’informations et sélectionner le graphique filtre la liste des modèles. La sélection de la légende du graphique filtre les données affichées dans le graphique.
    • Utilisez le lien Azure OpenAI approvisionné pour afficher des informations sur les modèles approvisionnés, y compris une calculatrice de capacité.
  4. Lorsque vous sélectionnez le lien Quota de machines virtuelles, vous pouvez consulter le quota et l’utilisation des familles de machines virtuelles dans la région Azure sélectionnée. Pour demander un quota, sélectionnez la famille de machines virtuelles, puis sélectionnez Quota de demandes.

    Conseil / Astuce

    Si vous ne voyez pas le lien quota de machines virtuelles, vous affichiez un projet Foundry lorsque vous avez sélectionné Centre d’administration. Utilisez le lien Toutes les ressources , puis sélectionnez un projet dans lequel le type contient la ressource parente : nom (Hub), puis sélectionnez Quota dans le menu de gauche.

    Capture d’écran de la page Quota de machines virtuelles dans le portail Azure AI Foundry.

  1. Dans le portail Azure AI Foundry, sélectionnez Centre de gestion en bas du menu de gauche.

    Capture d’écran du lien du Centre de gestion.

  2. Sélectionnez Quotas dans le menu de gauche.

    Capture d’écran des entrées de quota de modèles et de machines virtuelles dans la section Gestion.

  3. Dans la vue par quota, vous pouvez voir le quota pour les modèles dans la région Azure sélectionnée. Pour demander un quota, sélectionnez le modèle, puis sélectionnez Quota de demande.

    Capture d’écran de la page Quota de modèle pour un projet Foundry dans le portail Azure AI Foundry.

    • Utilisez le bouton Afficher tous les quotas pour afficher tous les quotas ou uniquement le quota actuellement alloué.
    • Utilisez la liste déroulante Regrouper par pour regrouper la liste par Type de quota, Région et Modèle, Quota type, Modèle et Région ou Aucun. Le regroupement Aucun affiche une liste des modèles de déploiement.
    • Développez les regroupements pour afficher des informations sur modèles de déploiement spécifiques. Lors de l’affichage d’un modèle de déploiement, sélectionnez l’icône du crayon dans la colonne Allocation de quota pour modifier l’allocation de quota pour le modèle de déploiement.
    • Utilisez les graphiques le long de la page pour afficher plus de détails sur l’utilisation du quota. Les graphiques sont interactifs. Pointer une section du graphique affiche plus d’informations et sélectionner le graphique filtre la liste des modèles. La sélection de la légende du graphique filtre les données affichées dans le graphique.
    • Utilisez le lien Azure OpenAI approvisionné pour afficher des informations sur les modèles approvisionnés, y compris une calculatrice de capacité.