Partage via


Vue d’ensemble : déployer des modèles, des flux et des applications web avec Azure AI Studio

Important

Certaines des fonctionnalités décrites dans cet article peuvent uniquement être disponibles en préversion. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure AI Studio prend en charge le déploiement de modèles de langage volumineux (Large Language Model/LLM), de flux et d’applications web. Le déploiement d’un LLM, ou d’un flux, le rend disponible pour une utilisation dans un site web, une application ou d’autres environnements de production. Cela implique généralement l’hébergement du modèle sur un serveur ou dans le cloud, et la création d’une API ou d’une autre interface pour permettre aux utilisateurs d’interagir avec le modèle.

Vous entendez souvent cette interaction avec un modèle appelé « inférence ». L’inférence est le processus qui consiste à appliquer de nouvelles données d’entrée à un modèle pour générer des sorties. L’inférence peut être utilisée pour différentes applications. Par exemple, un modèle d’achèvement de conversation peut être utilisé pour compléter automatiquement les mots ou expressions qu’une personne saisit en temps réel. Un modèle de conversation peut être utilisé pour générer une réponse à « Pouvez-vous créer un itinéraire pour une visite d’une seule journée à Seattle ? ». Les possibilités sont infinies.

Déployer des modèles

Tout d’abord, vous pourriez demander :

  • « Quels modèles puis-je déployer ? » Azure AI Studio prend en charge le déploiement de certains des modèles de base de langage et de vision les plus populaires, curés par Microsoft, Hugging Face et Meta.
  • « Comment faire pour choisir le bon modèle ? » Azure AI Studio fournit un catalogue de modèles qui vous permet de rechercher et de filtrer des modèles en fonction de votre cas d’usage. Vous pouvez également tester un modèle sur un échantillon de terrain de jeu avant de le déployer sur votre projet.
  • « De quel endroit d’Azure AI Studio puis-je déployer un modèle ? » Vous pouvez déployer un modèle depuis le catalogue de modèles ou depuis la page de déploiement de votre projet.

Azure AI Studio simplifie les déploiements. Une sélection simple ou une ligne de code déploie un modèle et génère un point de terminaison d’API à utiliser par vos applications.

Modèles Azure OpenAI

Azure OpenAI vous permet d’accéder aux derniers modèles OpenAI avec les fonctionnalités d’entreprise d’Azure. Découvrez plus en détail comment déployer des modèles OpenAI dans AI Studio.

Ouvrir des modèles

Le catalogue de modèles offre un accès à une grande variété de modèles sur différentes modalités. Certains modèles du catalogue de modèles peuvent être déployés en tant que service avec paiement à l’utilisation, ce qui permet de les consommer en tant qu’API sans les héberger sur votre abonnement, tout en conservant les besoins des organisations de sécurité et de conformité de l’entreprise.

Déployer des modèles avec un modèle en tant que service

Cette option de déploiement ne nécessite pas de quota à partir de votre abonnement. Vous déployez en tant que déploiement d’API serverless et vous êtes facturé par jeton à la manière du paiement à l’utilisation. Découvrez comment déployer et utiliser la famille de modèles Llama 2 avec modèle en tant que service.

Déployer des modèles avec une infrastructure managée hébergée

Vous pouvez également héberger des modèles ouverts dans votre propre abonnement avec l’infrastructure managée, les machines virtuelles et le nombre d’instances pour la gestion de la capacité. Offre actuellement un large éventail de modèles d’Azure AI, HuggingFace et Nvidia. En savoir plus sur comment déployer des modèles ouverts sur des points de terminaison en temps réel.

Facturation pour le déploiement et l’inférence des LLM dans Azure AI Studio

Le tableau suivant décrit comment vous êtes facturé pour le déploiement et l’inférence des LLM dans Azure AI Studio. Consultez surveiller les coûts des modèles proposés dans la Place de marché Azure pour en savoir plus sur le suivi des coûts.

Cas d’usage Modèles Azure OpenAI Modèles déployés en tant qu’API serverless (paiement à l’utilisation) Modèles déployés avec le calcul managé
Déployer un modèle du catalogue de modèles sur votre projet Non, vous n’êtes pas facturé pour le déploiement d’un modèle Azure OpenAI sur votre projet. Oui, vous êtes facturé par infrastructure du point de terminaison1 Oui, vous êtes facturé pour l’infrastructure qui héberge le modèle2
Tester le mode conversation sur le terrain de jeu après le déploiement d’un modèle sur votre projet Oui, vous êtes facturé en fonction de votre utilisation de jetons Oui, vous êtes facturé en fonction de votre utilisation de jetons Aucune.
Tester un modèle sur un échantillon de terrain de jeu sur le catalogue de modèles (le cas échéant) Non applicable Aucun. Aucun.
Tester un modèle dans le terrain de jeu sous votre projet (le cas échéant) ou dans l’onglet test de la page détails du déploiement sous votre projet. Oui, vous êtes facturé en fonction de votre utilisation de jetons Oui, vous êtes facturé en fonction de votre utilisation de jetons Aucune.

1 Une infrastructure de point de terminaison minimale est facturée par minute. Vous n’êtes pas facturé pour l’infrastructure qui héberge le modèle lui-même en mode paiement à l’utilisation. Une fois le point de terminaison supprimé, aucun autre frais n’est facturé.

2 Facturation est effectuée en fonction de la référence SKU et du nombre d’instances utilisées dans le déploiement depuis le moment de la création. Une fois le point de terminaison supprimé, aucun autre frais n’est facturé.

Déployer des flux

Qu’est-ce qu’un flux et pourquoi vouloir le déployer ? Un flux est une séquence d’outils qui peuvent être utilisés pour générer une application IA générative. Le déploiement d’un flux diffère du déploiement d’un modèle en ceci que vous pouvez personnaliser le flux avec vos propres données et d’autres composants comme des incorporations, la recherche de base de données vectorielle. et des connexions personnalisées. Pour obtenir un guide pratique, consultez Déployer des flux avec Azure AI Studio.

Par exemple, vous pouvez générer un chatbot qui utilise vos données pour générer des réponses informées et fondées aux requêtes utilisateur. Lorsque vous ajoutez vos données dans le terrain de jeu, un flux d’invite est automatiquement généré pour vous. Vous pouvez déployer le flux tel quel ou le personnaliser davantage avec vos propres données et autres composants. Dans Azure AI Studio, vous pouvez également créer votre propre flux à partir de zéro.

Quelle que soit la façon dont vous choisissez de créer un flux dans Azure AI Studio, vous pouvez le déployer rapidement et générer un point de terminaison d’API à utiliser par vos applications.

Déployer des applications web

Le modèle, ou le flux, que vous déployez peut être utilisé dans une application web hébergée dans Azure. Azure AI Studio offre un moyen rapide de déployer une application web. Pour plus d’informations, consultez le Tutoriel Azure AI Enterprise Chat.

Planifier la sécurité IA pour un modèle déployé

Pour les modèles Azure OpenAI comme GPT-4, Azure AI Studio fournit un filtre de sécurité IA pendant le déploiement pour garantir une utilisation responsable de l’IA. Le filtre de sécurité de contenu IA permet la modération des contenus dangereux et sensibles afin de promouvoir la sécurité des applications améliorées par l’IA. En plus du filtre de sécurité IA, Azure AI Studio offre une surveillance des modèles pour les modèles déployés. La surveillance des modèles pour les LLM utilise les derniers modèles de langage GPT pour surveiller et alerter lorsque les sorties du modèle ne sont pas conformes aux seuils définis de sécurité et de qualité de génération. Par exemple, vous pouvez configurer un moniteur pour évaluer la façon dont les réponses générées par le modèle s’alignent sur les informations de la source d’entrée (« fondement ») et correspondent étroitement à une phrase ou à un document factuels (« similarité »).

Optimiser le niveau de performance d’un modèle déployé

Optimiser des LLM nécessite un examen attentif de plusieurs facteurs, notamment les métriques opérationnelles (par exemple la latence), les métriques de qualité (par exemple, la précision) et les coûts. Il est important de travailler avec des scientifiques et des ingénieurs des données expérimentés pour vous assurer que votre modèle est optimisé pour votre cas d’usage spécifique.

Étapes suivantes