Vue d’ensemble du déploiement pour les modèles Microsoft Foundry

Microsoft Foundry Models est le hub pour la découverte et le déploiement d’un large éventail de modèles IA pour les applications IA génératives. Pour rendre un modèle disponible pour les demandes d’inférence, vous le déployez. Foundry propose deux options de déploiement en fonction du type de modèle et de vos besoins en infrastructure.

Conseil

Vous n’avez pas toujours besoin de créer un déploiement. Avec les modèles instantanés (préversion), vous appelez les modèles pris en charge par nom et commencez à exécuter immédiatement l’inférence, sans déploiement requis.

Options de déploiement

Foundry propose deux options de déploiement :

Déploiement standard dans les ressources Foundry — Pour les modèles Foundry, y compris les modèles Foundry vendus par Azure (également appelés Azure Direct Models, ou ADM) et certains modèles de partenaires et de la communauté. Cette option est le chemin de déploiement préféré et le plus capable.
Déploiement de calcul managé (préversion) : disponible pour tous les modèles Open Source Software (OSS), y compris les modèles des partenaires et de la communauté, et des modèles personnalisés.

Le portail Foundry sélectionne automatiquement l’option de déploiement appropriée en fonction du modèle que vous choisissez.

	Déploiement standard dans les ressources Foundry	Calcul managé
Modèles	Modèles ADM (Azure OpenAI + modèles partenaires facturés via Azure) et sélectionnez Modèles des partenaires et de la communauté	Autres modèles dans le catalogue de modèles provenant de partenaires et de personnalisations. Par exemple, les modèles de Hugging Face, les cartes réseau NVIDIA, les modèles industriels et Databricks.
Facturation	Utilisation des jetons ou unités de débit approvisionnées (PTU)	Tarif horaire par référence SKU d’accélérateur
Informatique	Régional, zone de données ou global	Régional uniquement
Filtrage de contenu	Intégré et personnalisable	Via les API Azure AI Sécurité du Contenu

Déploiement standard dans les ressources Foundry

Le déploiement standard dans les ressources Foundry est l’option de déploiement préférée dans Foundry. Il prend en charge la plus large gamme de fonctionnalités et de types de déploiement.

Quels modèles utilisent le déploiement standard ?

Tous les modèles Foundry, notamment les modèles Foundry vendus par Azure et certains modèles provenant de partenaires et de la communauté, utilisent le déploiement standard. Les modèles foundry vendus par Azure incluent tous les modèles OpenAI Azure et les modèles sélectionnés parmi les principaux fournisseurs facturés via votre abonnement Azure, couverts par des contrats de niveau de service Azure et pris en charge par Microsoft. Sélectionnez Les modèles des partenaires et de la communauté qui utilisent le déploiement standard incluent des modèles anthropices et des modèles spécifiques de partenaires tels que Mistral, Cohere et Meta.

Capacités

Le déploiement standard prend en charge :

Types de déploiement multiples : Standard global, Standard de la zone de données, Standard régional, Provisionné, Batch, etc. Chaque type contrôle l’endroit où les données sont traitées et la façon dont vous payez. Pour plus d’informations, consultez Types de déploiement pour les modèles Microsoft Foundry.
Flexibilité du traitement des données : choisissez une zone de données régionale, une zone de données (ÉTATS-Unis ou UE) ou un traitement global en fonction de vos exigences de conformité.
Filtrage de contenu : filtres Azure AI Sécurité du Contenu intégrés avec des configurations personnalisables.
Authentification sans clé : ID Microsoft Entra (recommandé) et authentification basée sur des clés.
Mise en réseau privé : intégration de réseau virtuel pour un accès sécurisé.
Débit provisionné : Réservez une capacité avec des UTP pour garantir des performances prévisibles et à faible latence. Pour plus d’informations, consultez Débit provisionné.

Exigences en matière de ressources

Le déploiement standard est disponible dans :

Ressources Foundry, type de ressource principal pour les nouveaux projets Foundry. Aucun hub IA n’est requis.
Ressources Azure OpenAI : si vous utilisez des ressources Azure OpenAI, le catalogue de modèles affiche uniquement les modèles Azure OpenAI pour le déploiement. Effectuez une mise à niveau vers une ressource Foundry pour accéder à l’ensemble complet de modèles Foundry.

Pour commencer le déploiement, reportez-vous à Déploiement de modèles Microsoft Foundry dans le portail Foundry ou Déploiement de modèles à l’aide de l’Azure CLI et de Bicep.

Déploiement de calcul géré (version préliminaire)

Note

Le calcul managé dans Foundry est actuellement en préversion publique et l’inscription est nécessaire pour l’utiliser. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.

Le calcul géré dans Foundry (préversion) est une plateforme PaaS de GPU qui héberge des modèles open source et des modèles avec des pondérations personnalisées sur des ressources GPU dédiées. Vous accédez aux déploiements de calcul managés via le même point de terminaison de projet Foundry que d’autres types de déploiement, sans machines virtuelles, clusters ou runtimes de service à posséder. Foundry dimensionne le déploiement, approvisionne les accélérateurs et maintient l’environnement d’exécution à jour avec les correctifs.

Important

Le calcul managé prend en charge les modèles open source, partenaire, secteur et personnalisé. Les déploiements de calcul managés sont servis sur le point de terminaison de projet Foundry unifié, à l’aide de la même surface d’authentification, de mise en réseau et de SDK.

Quels modèles utilisent le calcul managé ?

Voici quelques exemples de collections de modèles qui nécessitent un calcul managé :

Hugging Face
Certains modèles Meta
Certains modèles Mistral
Microservices d’inférence NVIDIA (NIMs)
Modèles industriels (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
Databricks
Modèles personnalisés

Microsoft catalogue Foundry comprend 10 000 modèles open source et partenaires, avec environ 50 nouveaux modèles publiés chaque mois.

Capacités

Le calcul managé (préversion) prend en charge :

Point de terminaison et authentification Unified Foundry — Utilisez le même point de terminaison de projet, les mêmes clés API, Microsoft Entra ID et la même mise en réseau privée que pour les déploiements avec paiement au jeton et à débit approvisionné. Les itinéraires d’inférence utilisent <endpoint>/managed-deployments/<deployment-name>/. Les environnements d’exécution compatibles avec les chat completions fonctionnent également sur la route standard /openai/v1/ avec le SDK OpenAI.
Dimensionnement d’instance de modèle : les déploiements sont dimensionnés en termes centrés sur le modèle. Vous n’avez pas besoin de choisir des références SKU de machine virtuelle, car Foundry choisit des GPU par instance en fonction de la taille du modèle, de l’architecture, de la longueur du contexte et de l’optimisation de la charge de travail pour la latence ou le débit.
Runtimes d’inférence optimisés : conteneurs vLLM, SGLang et NVIDIA NIM sélectionnés par Microsoft avec batching continu, décodage spéculatif, parallélisme tensoriel et remplacement à chaud de LoRA.
Familles d’accélérateurs : A100 (80 Go), H100 (80 Go), H200 (141 Go) et MI300X.
Mise à l’échelle automatique et mise à l’échelle jusqu’à zéro — Mise à l’échelle automatique en fonction du trafic en direct ou mise à l’échelle manuelle. Configurez un délai d’inactivité afin que le déploiement s’adapte à zéro lorsqu’aucun trafic n’arrive, ce qui rend la facturation arrêtée immédiatement.
runtimes gérés par Microsoft : Microsoft possède des runtimes de service, des images conteneur de base et des correctifs de sécurité. Les mises à jour sont appliquées automatiquement aux déploiements en direct.
Métriques d’observabilité : chaque déploiement émet le nombre d’appels d’API par code d’état et centiles de temps de réponse. Les modèles de complétion de chat renvoient également le nombre de jetons en entrée et en sortie, les percentiles du délai jusqu’au premier jeton (TTFT) et les percentiles du temps de réponse total, regroupés par période.

Facturation et quota

La facturation du calcul géré s’effectue à l’heure, par SKU d’accélérateur, le débit par GPU servant d’unité de facturation sous-jacente. La mise à l’échelle automatique et la mise à l’échelle jusqu’à zéro adaptent les coûts au trafic réel, de sorte que la facturation s’arrête immédiatement lorsque les instances sont réduites.

Le quota est accordé pour chaque référence SKU d’accélérateur et par région via le processus de quota Foundry et est distinct du quota de machines virtuelles Azure. Azure machines virtuelles sont une offre IaaS (Infrastructure as a Service) avec des références SKU régionales ; le calcul managé est une offre PaaS qui mène au traitement global et de zone de données. Le quota de machines virtuelles Azure existant ne peut pas être appliqué à un déploiement de calcul managé.

Le calcul managé est actuellement disponible pour le déploiement global. Pour connaître les estimations de taux, consultez la calculatrice de prix Azure.

Commencez

Déployer des modèles open source avec un calcul managé

Comparaison des options de déploiement

Utilisez un déploiement standard dans les ressources Foundry dans la mesure du possible. Le tableau suivant compare les fonctionnalités entre les deux options de déploiement :

Capacité	Déploiement standard dans les ressources Foundry	Calcul managé
Quels modèles peuvent être déployés ?	Tous les modèles Foundry, y compris les modèles Foundry vendus par Azure et une sélection de modèles provenant de partenaires et de la communauté	Modèles open source et partenaires à partir du catalogue de modèles, NVIDIA NIM et modèles du secteur
Ressource de déploiement	Ressource Fonderie	Projet de fonderie
Nécessite AI Hub	Non	Non
Options de traitement des données	Régional, zone de données, global	Global
Mise en réseau privé	Oui	Oui
Filtrage de contenu	Intégré et personnalisable	Non disponible en préversion publique
Authentification sans clé	Oui (Microsoft Entra ID et basé sur des clés)	Oui (Microsoft Entra ID et basé sur des clés)
Facturation	Utilisation des jetons ou unités de débit approvisionnées	Tarif horaire par SKU d’accélérateur

Conseil

Pour plus d’informations sur la tarification, consultez Plan et gérer les coûts de Microsoft Foundry.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-06-03

Vue d’ensemble du déploiement pour les modèles Microsoft Foundry

Options de déploiement

Déploiement standard dans les ressources Foundry

Quels modèles utilisent le déploiement standard ?

Capacités

Exigences en matière de ressources

Déploiement de calcul géré (version préliminaire)

Quels modèles utilisent le calcul managé ?

Capacités

Facturation et quota

Commencez

Comparaison des options de déploiement

Contenu connexe

Commentaires

Ressources supplémentaires