Vue d’ensemble : déployer des modèles IA dans Azure AI Studio
Le catalogue de modèles dans Azure AI Studio est le hub qui vous permet de découvrir et d’utiliser un large éventail de modèles pour créer des applications d’IA générative. Vous devez déployer les modèles afin de les rendre disponibles pour recevoir les requêtes d’inférence. Le processus d’interaction avec un modèle déployé est appelé inférence. Azure AI Studio propose une suite complète d’options de déploiement pour ces modèles en fonction de vos besoins et des exigences du modèle.
Déployer des modèles
Les options de déploiement varient selon le type de modèle :
- Modèles Azure OpenAI : les modèles OpenAI les plus récents qui ont des fonctionnalités d’entreprise provenant d’Azure.
- MaaS (modèles en tant que service) : ces modèles ne nécessite pas de quota de calcul à partir de votre abonnement. Cette option vous permet de déployer votre MaaS (modèles en tant que service). Vous utilisez un déploiement d’API serverless et vous êtes facturé par jeton à la manière du paiement à l’utilisation.
- Modèles personnalisés et ouverts : le catalogue de modèles offre un accès à une grande variété de modèles de différentes modalités qui ont un accès ouvert. Vous pouvez héberger des modèles ouverts dans votre propre abonnement avec une infrastructure managée, des machines virtuelles et le nombre d’instances nécessaires pour la gestion de la capacité. Il existe un large éventail de modèles provenant d’Azure OpenAI, de Hugging Face et de NVIDIA.
Azure AI Studio propose quatre options différentes de déploiement :
Nom | Azure OpenAI Service | Service d’inférence de modèle Azure AI | API serverless | Capacité de calcul managée |
---|---|---|---|---|
Quels modèles peuvent être déployés ? | Modèles Azure OpenAI | Modèles Azure OpenAI et MaaS (modèles en tant que service) | MaaS (modèles en tant que service) | Modèles personnalisés et ouverts |
Ressources de déploiement | Service Azure OpenAI | Azure AI services | Projet IA | Projet IA |
Idéal lorsque | Vous prévoyez d’utiliser uniquement des modèles OpenAI | Vous prévoyez de tirer profit des modèles phares dans le catalogue Azure AI, notamment OpenAI. | Vous prévoyez d’utiliser un seul modèle à partir d’un fournisseur spécifique (à l’exclusion d’OpenAI). | Si vous prévoyez d’utiliser des modèles ouverts et que vous avez suffisamment de quota de calcul disponible dans votre abonnement. |
Bases de facturation | Utilisation d’un jeton | Utilisation d’un jeton | Utilisation de jeton1 | Heures cœur de calcul2 |
Instructions de déploiement | Déployer vers Azure OpenAI Service | Déployer vers une inférence de modèle Azure AI | Déployer vers une API serverless | Déployer vers le calcul managé |
1 Une infrastructure de point de terminaison minimale est facturée par minute. Vous n’êtes pas facturé pour l’infrastructure qui héberge le modèle dans le paiement à l’utilisation. Une fois que vous avez supprimé le point de terminaison, aucun autre frais n’est facturé.
2 La facturation est effectuée sur la base des minutes, en fonction du niveau du produit et du nombre d’instances utilisées dans le déploiement depuis le moment de la création. Une fois que vous avez supprimé le point de terminaison, aucun autre frais n’est facturé.
Conseil
Pour plus d’informations sur le suivi des coûts, consultez Surveiller les coûts pour les modèles proposés via la Place de marché Azure.
Que dois-je penser des options de déploiement ?
Azure AI Studio conseille aux clients d’explorer les options de déploiement et de choisir celle convenant le mieux à leurs besoins techniques et métier. Vous pouvez généralement utiliser le processus de réflexion suivant :
Commencez par les options de déploiement ayant les plus grandes étendues. Cela vous permet d’itérer et d’effectuer un prototypage plus rapide dans votre application sans devoir recréer votre architecture chaque fois que vous modifiez un élément. Le service d’inférence de modèle Azure AI est une cible de déploiement qui prend en charge tous les modèles phare dans le catalogue Azure AI, notamment l’innovation la plus récente d’Azure OpenAI.
Lorsque vous cherchez à utiliser un modèle spécifique :
Lorsque les modèles OpenAI vous intéressent, utilisez le service Azure OpenAI Service qui offre un large éventail de fonctionnalités conçues pour ceux-ci.
Lorsqu’un modèle particulier de MaaS (modèles en tant que service) vous intéresse et que vous ne prévoyez pas d’utiliser un autre type de modèle, utilisez les points de terminaison d’API serverless. Ils permettent le déploiement d’un seul modèle sous un jeu unique de clés et d’URL de point de terminaison.
Quand votre modèle n’est pas disponible en tant que MaaS (modèles en tant que service) et que vous avez le quota de calcul disponible dans votre abonnement, utilisez Calcul managé qui prend en charge le déploiement de modèles personnalisés et ouverts. Il permet également un niveau élevé de personnalisation du serveur d’inférence de déploiement, des protocoles et une configuration détaillée.
Conseil
Chaque option de déploiement peut offrir différentes fonctionnalités en termes de mise en réseau, sécurité et des fonctionnalités supplémentaires telles que la sécurité du contenu. Passez en revue la documentation pour chacune d’entre elles pour comprendre leurs limites.