Partage via


Catalogue de modèles et collections dans Azure AI Studio

Important

Certaines des fonctionnalités décrites dans cet article peuvent uniquement être disponibles en préversion. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Le catalogue de modèles dans Azure AI Studio est le hub qui permet de découvrir et d’utiliser un large éventail de modèles qui vous permettent de créer des applications d’IA générative. Le catalogue de modèles réunit des centaines de modèles parmi des fournisseurs de modèles tels que le service Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, y compris des modèles entraînés par Microsoft. Les modèles provenant de fournisseurs autres que Microsoft ne sont pas des produits Microsoft, tels que définis dans les conditions relatives au produit Microsoft, et sont soumis aux conditions fournies avec le modèle.

Collections de modèles

Le catalogue de modèles organise les modèles en collections. Il existe trois types de collections dans le catalogue de modèles :

  • Modèles organisés par Azure AI : les modèles de pondérations et de propriétés ouverts tiers les plus populaires empaquetés et optimisés pour fonctionner en toute fluidité sur la plateforme Azure AI. L’utilisation de ces modèles est soumise aux termes du contrat de licence du fournisseur de modèles fournis avec le modèle. Lorsqu’ils sont déployés dans Azure AI Studio, la disponibilité du modèle est soumise au Contrat de niveau de service Azure applicable, et Microsoft prend en charge les problèmes de déploiement. Les modèles de partenaires tels que Meta, NVIDIA, Mistral AI sont des exemples de modèles disponibles dans la collection « Organisés par Azure AI » sur le catalogue. Vous pouvez identifier ces modèles grâce à une coche verte sur la vignette des modèles dans le catalogue, ou filtrez par la collection « Organisés par Azure AI ».
  • Modèles Azure OpenAI, exclusivement disponibles sur Azure : les modèles Azure OpenAI phares de la collection « Azure OpenAI » avec intégration au service Azure OpenAI. Microsoft prend en charge ces modèles et leur utilisation est soumise aux conditions du produit et au contrat de niveau de service Azure OpenAI Service.
  • Modèles ouverts à partir du hub HuggingFace : des centaines de modèles du hub HuggingFace sont accessibles via la collection « Hugging Face » pour une inférence en temps réel avec le calcul managé. Hugging Face crée et gère des modèles répertoriés dans la collection HuggingFace. Utilisez le Forum HuggingFace ou le Support HuggingFace pour obtenir de l’aide. Pour en savoir plus, consultez Déployer des modèles ouverts.

Suggestion d’ajouts au catalogue de modèles : vous pouvez soumettre une demande d’ajout de modèle au catalogue de modèles en remplissant ce formulaire.

Vue d’ensemble des fonctionnalités du catalogue de modèles

Pour plus d’informations sur les modèles Azure OpenAI, consultez Azure OpenAI Service.

Certains modèles des collections Organisés par Azure AI et Modèles ouverts à partir des collections du hub Hugging Face peuvent être déployés avec une option de calcul managée, et certains modèles peuvent être déployés à l’aide d’API serverless via une facturation avec paiement à l’utilisation. Ces modèles peuvent être explorés, comparés, évalués, ajustés (lorsqu’ils sont pris en charge), déployés à grande échelle et intégrés à vos applications IA génératives avec une sécurité et une gouvernance des données de niveau entreprise.

  • Explorez : passez en revue les cartes de modèles, essayez d’utiliser des exemples d’inférence et parcourez des exemples de code pour évaluer, ajuster ou déployer le modèle.
  • Comparez : comparez les points de référence entre les modèles et jeux de données disponibles du secteur d’activité pour évaluer celui qui répond à votre scénario métier.
  • Évaluer : évaluez l’adaptation du modèle à votre charge de travail spécifique en fournissant vos propres données de test. Les métriques d’évaluation facilitent la visualisation de l’exécution du modèle sélectionné dans votre scénario.
  • Ajustez : personnalisez des modèles ajustables à l’aide de vos propres données d’apprentissage et choisissez le meilleur modèle en comparant les métriques sur tous vos travaux d’ajustement. Des optimisations intégrées qui accélèrent l’ajustement et réduisent la mémoire et le calcul nécessaires à l’ajustement.
  • Déployez : déployez des modèles préentraînés ou des modèles ajustés en toute fluidité pour l’inférence. Des modèles qui peuvent être déployés sur le calcul managé peuvent également être téléchargés.

Déploiement des modèles : calcul managé et API serverless (paiement à l’utilisation)

Le catalogue de modèles offre deux façons distinctes de déployer des modèles à partir du catalogue pour votre utilisation : les API de calcul managées et serverless. Les options de déploiement disponibles pour chaque modèle varient. Vous pouvez en savoir plus sur les fonctionnalités des options de déploiement et les options disponibles pour des modèles spécifiques dans les tableaux suivants. Découvrez-en davantage sur le traitement des données avec les options de déploiement.

Fonctionnalités Capacité de calcul managée API serverless (paiement à l’utilisation)
Expérience de déploiement et facturation Les pondérations de modèle sont déployées sur des machines virtuelles dédiées avec des points de terminaison en ligne gérés. Le point de terminaison en ligne géré, qui peut présenter un ou plusieurs déploiements, rend une API REST disponible pour l’inférence. Vous êtes facturé au cœur/heure de la machine virtuelle utilisée par les déploiements. L’accès aux modèles se fait via un déploiement qui approvisionne une API pour accéder au modèle. L’API fournit l’accès au modèle hébergé et géré par Microsoft, pour l’inférence. Vous êtes facturé pour les entrées et sorties vers les API, généralement via les jetons. Les informations de tarification sont fournies avant le déploiement.
Authentification des API Clés et authentification Microsoft Entra ID. Clés uniquement.
Sécurité du contenu Utilisez les API du service Azure Sécurité du Contenu. Les filtres Azure AI Sécurité du Contenu sont intégrés aux API d’inférence. Les filtres Azure AI Sécurité du Contenu sont facturés séparément.
Isolement réseau Configurer un réseau managé pour les hubs Azure AI Studio. Les points de terminaison suivront le paramètre d’indicateur d’accès réseau public (PNA) de votre hub. Pour plus d’informations, consultez la section Isolation réseau pour les modèles déployés via des API serverless.
Modèle Capacité de calcul managée API serverless (paiement à l’utilisation)
Modèles de la famille Llama Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Modèles de la famille Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large
Mistral-small
Modèles de la famille Cohere Non disponible Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
JAIS Non disponible jais-30b-chat
Modèles de la famille Phi3 Phi-3-small-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Nixtla Non disponible TimeGEN-1
Autres modèles Disponible Non disponible

Un diagramme montrant le cycle de modèles en tant que service et du service de points de terminaison en temps réel.

Capacité de calcul managée

La possibilité de déployer des modèles en tant que calcul managé s’appuie sur les fonctionnalités de plateforme d’Azure Machine Learning pour permettre une intégration fluide, dans l’ensemble du cycle de vie LLMOps, de la vaste collection de modèles dans le catalogue de modèles.

Un diagramme montrant le cycle de vie LLMops.

Comment les modèles sont-ils disponibles pour le déploiement en tant que calcul managé ?

Les modèles sont mis à disposition via les registres Azure Machine Learning qui permettent d’abord à ML d’héberger et de distribuer des ressources Machine Learning telles que les pondérations de modèles, les runtimes de conteneurs pour l’exécution des modèles, des pipelines pour l’évaluation et l’optimisation des modèles et des jeux de données pour des points de référence et des exemples. Ces registres ML s’appuient sur une infrastructure hautement évolutive et prête pour l’entreprise qui :

  • Fournit des artefacts de modèle d’accès à faible latence à toutes les régions Azure avec la géoréplication intégrée.

  • Prend en charge les exigences de sécurité d’entreprise en limitant l’accès aux modèles avec Azure Policy et en sécurisant le déploiement avec des réseaux virtuels managés.

Déployer des modèles pour l’inférence grâce au calcul managé

Les modèles disponibles pour le déploiement vers un calcul managé peuvent être déployés sur des points de terminaison en ligne Azure Machine Learning pour l’inférence en temps réel. Le déploiement sur le calcul managé nécessite que vous disposiez d’un quota de machines virtuelles dans votre abonnement Azure pour les références SKU spécifiques nécessaires pour exécuter le modèle de manière optimale. Certains modèles vous permettent de déployer sur un quota temporairement partagé pour tester le modèle. Découvrez-en davantage sur le déploiement de modèles :

Créer des applications d’IA générative grâce au calcul managé

Le flux d’invite offre une expérience idéale pour le prototypage. Vous pouvez utiliser des modèles déployés avec des calculs managés dans le flux d’invite avec l’outil Modèle ouvert LLM. Vous pouvez également utiliser l’API REST exposée par le calcul managé dans les outils LLM populaires tels que LangChain avec l’extension Azure Machine Learning.

Sécurité du contenu pour les modèles déployés en tant que calcul managé

Le service Azure AI Sécurité du Contenu (AACS) est disponible pour une utilisation avec des calculs managés pour détecter différentes catégories de contenu dangereux, tels que le contenu sexuel, violent, haineux et d’automutilation, et les menaces avancées, telles que la détection des risques de jailbreak et la détection de texte matériel protégé. Vous pouvez vous référer à ce bloc-notes pour l’intégration de référence à AACS pour Llama 2 ou utiliser l’outil Sécurité du Contenu (texte) dans flux d’invite pour transmettre des réponses du modèle à AACS pour le filtrage. Vous êtes facturé séparément en fonction de la tarification AACS pour une telle utilisation.

API serverless avec facturation au paiement à l’utilisation

Certains modèles du catalogue de modèles peuvent être déployés en tant qu’API serverless avec une facturation basée sur le paiement à l’utilisation, ce qui permet de les consommer en tant qu’API sans les héberger sur votre abonnement. Les modèles sont hébergés dans une infrastructure managée par Microsoft, qui permet l’accès basé sur l’API au modèle du fournisseur de modèles. L’accès basé sur l’API peut réduire drastiquement le coût d’accès à un modèle et simplifie considérablement l’expérience d’approvisionnement.

Les modèles disponibles pour le déploiement en tant qu’API serverless dans le cadre d’une facturation de paiement à l’utilisation sont proposés par le fournisseur de modèles, mais hébergés dans l’infrastructure Azure managée par Microsoft et sont accessibles via l’API. Les fournisseurs de modèles définissent les termes du contrat de licence et le prix d’utilisation de leurs modèles, tandis que le service Azure Machine Learning gère l’infrastructure d’hébergement, rend les API d’inférence disponibles et agit comme processeur de données pour les invites soumises et le contenu produit par les modèles déployés via MaaS. Découvrez-en davantage sur le traitement des données pour MaaS dans l’article confidentialité des données.

Un diagramme montrant le cycle de service de l’éditeur de modèle.

Billing

L’expérience de découverte, d’abonnement et de consommation pour les modèles déployés via MaaS se trouve dans Azure AI Studio et Azure Machine Learning Studio. Les utilisateurs acceptent les termes du contrat de licence pour l’utilisation des modèles et les informations de tarification de la consommation sont fournies pendant le déploiement. Les modèles provenant de fournisseurs tiers sont facturés via la place de marché Azure, conformément aux conditions d’utilisation de la place de marché commerciale. Les modèles de Microsoft sont facturés à l’aide de compteurs Azure comme services de consommation internes. Comme décrit dans Conditions du produit, les services de consommation internes sont achetés à l’aide de compteurs Azure, mais ne sont pas soumis aux conditions d’utilisation du service Azure. L’utilisation de ces modèles est soumise aux termes du contrat de licence fournis.

Ajuster les modèles

Certains modèles prennent aussi en charge l’ajustement serverless, avec lequel les utilisateurs peuvent tirer parti du Fine-tuning géré avec la facturation de paiement à l’utilisation pour ajuster les modèles à l’aide des données qu’ils fournissent. Pour obtenir plus d’informations, consultez la vue d’ensemble de l’ajustement.

RAG avec des modèles déployés en tant qu’API serverless

Azure AI Studio permet aux utilisateurs d’utiliser les index vectoriels et la génération augmentée de récupération. Les modèles qui peuvent être déployés via l’API serverless peuvent être utilisés pour générer des incorporations et une inférence basées sur des données personnalisées pour générer des réponses spécifiques à leur cas d’usage. Pour en savoir plus, consultez Comment créer un index vectoriel.

Disponibilité régionale des offres et des modèles

La facturation avec paiement à l’utilisation est disponible uniquement pour les utilisateurs dont l’abonnement Azure appartient à un compte de facturation dans un pays où le fournisseur de modèles a rendu l’offre disponible (consultez « région de disponibilité de l’offre » dans le tableau de la section suivante). Si l’offre est disponible dans la région concernée, l’utilisateur doit disposer d’un hub/projet dans la région Azure où le modèle est disponible pour le déploiement ou l’ajustement, le cas échéant (consultez les colonnes « région du hub/projet » dans le tableau ci-dessous).

Modèle Région de disponibilité de l’offre Région de déploiement du hub/projet Région d’ajustement du hub/projet
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Pays gérés par Microsoft USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
Llama-2-7b
Llama-2-13b
Llama-2-70b
Pays gérés par Microsoft USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, USA Ouest, USA Ouest 3 USA Ouest 3
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
Pays gérés par Microsoft USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, West US, USA Ouest 3, Non disponible
Mistral Small Pays gérés par Microsoft USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
Mistral-Large Pays gérés par Microsoft
Brésil
Hong Kong (R.A.S.)
Israël
USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Pays gérés par Microsoft
Japon
USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
TimeGEN-1 Pays gérés par Microsoft
Mexique
Israël
USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
jais-30b-chat Pays gérés par Microsoft USA Est, USA Est 2, USA Centre Nord, USA Centre Sud, Suède Centre, USA Ouest, USA Ouest 3 Non disponible
Phi-3-mini-4k-instruct Pays gérés par Microsoft USA Est 2, Canada Centre, Suède Centre, USA Ouest 3 Non disponible
Phi-3-mini-128k-instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct
Pays gérés par Microsoft USA Est 2, Suède Centre Non disponible

Sécurité du contenu pour les modèles déployés via des API serverless

Important

Certaines des fonctionnalités décrites dans cet article peuvent uniquement être disponibles en préversion. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Pour les modèles de langage déployés via les API serverless, Azure AI implémente une configuration par défaut de filtres de modération de texte Azure AI Sécurité du Contenu qui détectent les contenus nuisibles comme la haine, l’automutilation, et le contenu à caractère sexuel ou violent. Pour découvrir plus d’informations sur le filtrage de contenu (préversion), consultez Catégories préjudiciables dans Azure AI Sécurité du Contenu.

Conseil

Le filtrage de contenu (préversion) n’est pas disponible pour certains types de modèles déployés via des API serverless. Ces types de modèles incluent des modèles incorporés et des modèles de série chronologique.

Le filtrage de contenu (préversion) se produit de manière synchrone quand le service traite des prompts destinés à générer du contenu ; vous pouvez être facturé séparément en fonction de la tarification AACS pour une telle utilisation. Vous pouvez désactiver le filtrage de contenu (préversion) pour des points de terminaison serverless individuels au moment où vous déployez un modèle de langage pour la première fois ou plus tard dans la page des détails du déploiement en sélectionnant le bouton bascule de filtrage du contenu.

Supposons que vous décidez d’utiliser une API autre que l’API d’inférence de modèle Azure AI pour travailler avec un modèle déployé via une API serverless. Dans ce cas, le filtrage de contenu (préversion) n’est pas activé, sauf si vous l’implémentez séparément à l’aide d’Azure AI Sécurité du Contenu. Pour en savoir plus sur la prise en main d’Azure AI Sécurité du Contenu, consultez Démarrage rapide : Analyser le contenu texte. Si vous n’utilisez pas le filtrage de contenu (préversion) lors de l’utilisation de modèles déployés via des API serverless, vous risquez d’exposer davantage les utilisateurs à du contenu dangereux.

Isolement réseau pour les modèles déployés via les API serverless

Les points de terminaison des modèles déployés en tant qu’API serverless suivent le paramètre d’indicateur d’accès réseau public (PNA) du hub AI Studio dans lequel le déploiement existe. Pour sécuriser votre point de terminaison MaaS, désactivez l’indicateur PNA sur votre hub AI Studio. Vous pouvez sécuriser la communication entrante d’un client vers votre point de terminaison à l’aide d’un point de terminaison privé pour le hub.

Définir l’indicateur PNA pour le hub Azure AI :

  • Accédez au Portail Azure.
  • Recherchez le groupe de ressources auquel appartient le hub, puis sélectionnez votre hub Azure AI dans les ressources répertoriées pour ce groupe de ressources.
  • Dans la page de présentation du hub, utilisez le volet de navigation gauche pour accéder à Paramètres>Mise en réseau.
  • Sous l’onglet Accès public, vous pouvez configurer les paramètres de l’indicateur d’accès réseau public.
  • Enregistrez vos modifications. Vos modifications peuvent prendre jusqu’à cinq minutes pour se propager.

Limites

  • Si vous avez un hub AI Studio avec un point de terminaison privé créé avant le 11 juillet 2024, les nouveaux points de terminaison MaaS ajoutés aux projets de ce hub ne suivent pas la configuration de mise en réseau du hub. Au lieu de cela, vous devez créer un point de terminaison privé pour le hub et créer de nouveaux déploiements d’API serverless dans le projet afin que les nouveaux déploiements puissent suivre la configuration de mise en réseau du hub.
  • Si vous avez un hub AI Studio avec des déploiements MaaS créés avant le 11 juillet 2024 et que vous activez un point de terminaison privé sur ce hub, les déploiements MaaS existants ne suivront pas la configuration de mise en réseau du hub. Pour que les déploiements d’API serverless dans le hub suivent la configuration de mise en réseau du hub, vous devez recréer les déploiements.
  • Actuellement, la prise en charge deSur vos données n’est pas disponible pour les déploiements MaaS dans des hubs privés, car les hubs privés ont l’indicateur PNA désactivé.
  • Toute modification de configuration réseau (par exemple, l’activation ou la désactivation de l’indicateur PNA) peut prendre jusqu’à cinq minutes pour se propager.

Étape suivante