Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Microsoft Foundry Models est le hub pour la découverte et le déploiement d’un large éventail de modèles IA pour les applications IA génératives. Pour rendre un modèle disponible pour les demandes d’inférence, vous le déployez. Foundry propose deux options de déploiement en fonction du type de modèle et de vos besoins en infrastructure.
Conseil
Vous n’avez pas toujours besoin de créer un déploiement. Avec les modèles instantanés (préversion), vous appelez les modèles pris en charge par nom et commencez à exécuter immédiatement l’inférence, sans déploiement requis.
Options de déploiement
Foundry propose deux options de déploiement :
- Déploiement standard dans les ressources Foundry — Pour les modèles Foundry, y compris les modèles Foundry vendus par Azure (également appelés Azure Direct Models, ou ADM) et certains modèles de partenaires et de la communauté. Cette option est le chemin de déploiement préféré et le plus capable.
- Déploiement de calcul managé (préversion) : disponible pour tous les modèles Open Source Software (OSS), y compris les modèles des partenaires et de la communauté, et des modèles personnalisés.
Le portail Foundry sélectionne automatiquement l’option de déploiement appropriée en fonction du modèle que vous choisissez.
| Déploiement standard dans les ressources Foundry | Calcul managé | |
|---|---|---|
| Modèles | Modèles ADM (Azure OpenAI + modèles partenaires facturés via Azure) et sélectionnez Modèles des partenaires et de la communauté | Autres modèles dans le catalogue de modèles provenant de partenaires et de personnalisations. Par exemple, les modèles de Hugging Face, les cartes réseau NVIDIA, les modèles industriels et Databricks. |
| Facturation | Utilisation des jetons ou unités de débit approvisionnées (PTU) | Tarif horaire par référence SKU d’accélérateur |
| Informatique | Régional, zone de données ou global | Régional uniquement |
| Filtrage de contenu | Intégré et personnalisable | Via les API Azure AI Sécurité du Contenu |
Déploiement standard dans les ressources Foundry
Le déploiement standard dans les ressources Foundry est l’option de déploiement préférée dans Foundry. Il prend en charge la plus large gamme de fonctionnalités et de types de déploiement.
Quels modèles utilisent le déploiement standard ?
Tous les modèles Foundry, notamment les modèles Foundry vendus par Azure et certains modèles provenant de partenaires et de la communauté, utilisent le déploiement standard. Les modèles foundry vendus par Azure incluent tous les modèles OpenAI Azure et les modèles sélectionnés parmi les principaux fournisseurs facturés via votre abonnement Azure, couverts par des contrats de niveau de service Azure et pris en charge par Microsoft. Sélectionnez Les modèles des partenaires et de la communauté qui utilisent le déploiement standard incluent des modèles anthropices et des modèles spécifiques de partenaires tels que Mistral, Cohere et Meta.
Capacités
Le déploiement standard prend en charge :
- Types de déploiement multiples : Standard global, Standard de la zone de données, Standard régional, Provisionné, Batch, etc. Chaque type contrôle l’endroit où les données sont traitées et la façon dont vous payez. Pour plus d’informations, consultez Types de déploiement pour les modèles Microsoft Foundry.
- Flexibilité du traitement des données : choisissez une zone de données régionale, une zone de données (ÉTATS-Unis ou UE) ou un traitement global en fonction de vos exigences de conformité.
- Filtrage de contenu : filtres Azure AI Sécurité du Contenu intégrés avec des configurations personnalisables.
- Authentification sans clé : ID Microsoft Entra (recommandé) et authentification basée sur des clés.
- Mise en réseau privé : intégration de réseau virtuel pour un accès sécurisé.
- Débit provisionné : Réservez une capacité avec des UTP pour garantir des performances prévisibles et à faible latence. Pour plus d’informations, consultez Débit provisionné.
Exigences en matière de ressources
Le déploiement standard est disponible dans :
- Ressources Foundry, type de ressource principal pour les nouveaux projets Foundry. Aucun hub IA n’est requis.
- Ressources Azure OpenAI : si vous utilisez des ressources Azure OpenAI, le catalogue de modèles affiche uniquement les modèles Azure OpenAI pour le déploiement. Effectuez une mise à niveau vers une ressource Foundry pour accéder à l’ensemble complet de modèles Foundry.
Pour commencer le déploiement, reportez-vous à Déploiement de modèles Microsoft Foundry dans le portail Foundry ou Déploiement de modèles à l’aide de l’Azure CLI et de Bicep.
Déploiement de calcul géré (version préliminaire)
Note
Le calcul managé dans Foundry est actuellement en préversion publique et l’inscription est nécessaire pour l’utiliser. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.
Le calcul géré dans Foundry (préversion) est une plateforme PaaS de GPU qui héberge des modèles open source et des modèles avec des pondérations personnalisées sur des ressources GPU dédiées. Vous accédez aux déploiements de calcul managés via le même point de terminaison de projet Foundry que d’autres types de déploiement, sans machines virtuelles, clusters ou runtimes de service à posséder. Foundry dimensionne le déploiement, approvisionne les accélérateurs et maintient l’environnement d’exécution à jour avec les correctifs.
Important
Le calcul managé prend en charge les modèles open source, partenaire, secteur et personnalisé. Les déploiements de calcul managés sont servis sur le point de terminaison de projet Foundry unifié, à l’aide de la même surface d’authentification, de mise en réseau et de SDK.
Quels modèles utilisent le calcul managé ?
Voici quelques exemples de collections de modèles qui nécessitent un calcul managé :
- Hugging Face
- Certains modèles Meta
- Certains modèles Mistral
- Microservices d’inférence NVIDIA (NIMs)
- Modèles industriels (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
- Databricks
- Modèles personnalisés
Microsoft catalogue Foundry comprend 10 000 modèles open source et partenaires, avec environ 50 nouveaux modèles publiés chaque mois.
Capacités
Le calcul managé (préversion) prend en charge :
-
Point de terminaison et authentification Unified Foundry — Utilisez le même point de terminaison de projet, les mêmes clés API, Microsoft Entra ID et la même mise en réseau privée que pour les déploiements avec paiement au jeton et à débit approvisionné. Les itinéraires d’inférence utilisent
<endpoint>/managed-deployments/<deployment-name>/. Les environnements d’exécution compatibles avec les chat completions fonctionnent également sur la route standard/openai/v1/avec le SDK OpenAI. - Dimensionnement d’instance de modèle : les déploiements sont dimensionnés en termes centrés sur le modèle. Vous n’avez pas besoin de choisir des références SKU de machine virtuelle, car Foundry choisit des GPU par instance en fonction de la taille du modèle, de l’architecture, de la longueur du contexte et de l’optimisation de la charge de travail pour la latence ou le débit.
- Runtimes d’inférence optimisés : conteneurs vLLM, SGLang et NVIDIA NIM sélectionnés par Microsoft avec batching continu, décodage spéculatif, parallélisme tensoriel et remplacement à chaud de LoRA.
- Familles d’accélérateurs : A100 (80 Go), H100 (80 Go), H200 (141 Go) et MI300X.
- Mise à l’échelle automatique et mise à l’échelle jusqu’à zéro — Mise à l’échelle automatique en fonction du trafic en direct ou mise à l’échelle manuelle. Configurez un délai d’inactivité afin que le déploiement s’adapte à zéro lorsqu’aucun trafic n’arrive, ce qui rend la facturation arrêtée immédiatement.
- runtimes gérés par Microsoft : Microsoft possède des runtimes de service, des images conteneur de base et des correctifs de sécurité. Les mises à jour sont appliquées automatiquement aux déploiements en direct.
- Métriques d’observabilité : chaque déploiement émet le nombre d’appels d’API par code d’état et centiles de temps de réponse. Les modèles de complétion de chat renvoient également le nombre de jetons en entrée et en sortie, les percentiles du délai jusqu’au premier jeton (TTFT) et les percentiles du temps de réponse total, regroupés par période.
Facturation et quota
La facturation du calcul géré s’effectue à l’heure, par SKU d’accélérateur, le débit par GPU servant d’unité de facturation sous-jacente. La mise à l’échelle automatique et la mise à l’échelle jusqu’à zéro adaptent les coûts au trafic réel, de sorte que la facturation s’arrête immédiatement lorsque les instances sont réduites.
Le quota est accordé pour chaque référence SKU d’accélérateur et par région via le processus de quota Foundry et est distinct du quota de machines virtuelles Azure. Azure machines virtuelles sont une offre IaaS (Infrastructure as a Service) avec des références SKU régionales ; le calcul managé est une offre PaaS qui mène au traitement global et de zone de données. Le quota de machines virtuelles Azure existant ne peut pas être appliqué à un déploiement de calcul managé.
Le calcul managé est actuellement disponible pour le déploiement global. Pour connaître les estimations de taux, consultez la calculatrice de prix Azure.
Commencez
Comparaison des options de déploiement
Utilisez un déploiement standard dans les ressources Foundry dans la mesure du possible. Le tableau suivant compare les fonctionnalités entre les deux options de déploiement :
| Capacité | Déploiement standard dans les ressources Foundry | Calcul managé |
|---|---|---|
| Quels modèles peuvent être déployés ? | Tous les modèles Foundry, y compris les modèles Foundry vendus par Azure et une sélection de modèles provenant de partenaires et de la communauté | Modèles open source et partenaires à partir du catalogue de modèles, NVIDIA NIM et modèles du secteur |
| Ressource de déploiement | Ressource Fonderie | Projet de fonderie |
| Nécessite AI Hub | Non | Non |
| Options de traitement des données | Régional, zone de données, global | Global |
| Mise en réseau privé | Oui | Oui |
| Filtrage de contenu | Intégré et personnalisable | Non disponible en préversion publique |
| Authentification sans clé | Oui (Microsoft Entra ID et basé sur des clés) | Oui (Microsoft Entra ID et basé sur des clés) |
| Facturation | Utilisation des jetons ou unités de débit approvisionnées | Tarif horaire par SKU d’accélérateur |
Conseil
Pour plus d’informations sur la tarification, consultez Plan et gérer les coûts de Microsoft Foundry.
Contenu connexe
- Types de déploiement pour les modèles Microsoft Foundry
- Déployer des modèles Microsoft Foundry dans le portail Foundry
- Déployer des modèles à l’aide d’Azure CLI et de Bicep
- Modèles Foundry vendus par Azure
- Modèles Foundry provenant de partenaires et de la communauté
- Vue d’ensemble des modèles Microsoft Foundry
- Calcul géré dans Microsoft Foundry