Déployer des modèles sur des points de terminaison

Effectué

Après avoir sélectionné un modèle dans le catalogue, vous le déployez pour le rendre accessible via des points de terminaison que vos applications peuvent utiliser. Le portail Microsoft Foundry vous guides tout au long du processus de déploiement et fournit des outils pour tester votre modèle déployé immédiatement.

Capture d’écran de l’interface déployer un modèle dans le portail Foundry.

Comprendre les types de déploiement

Microsoft Foundry prend en charge plusieurs types de déploiement, chacun offrant des caractéristiques différentes pour la résidence des données, la mise à l’échelle et la facturation :

  • Les déploiements de modèles Standard globaux peuvent utiliser n’importe quelle région Azure sur une base de paiement par jeton. Elles sont optimales pour les charges de travail générales et fournissent le quota le plus élevé.
  • Les déploiements provisionnés globaux peuvent utiliser n’importe quelle région Azure et leur utilisation est basée sur une base d’unités de débit d’approvisionnement réservées (PTU) pour fournir un débit élevé prévisible.
  • Les déploiements Batch globaux peuvent utiliser n’importe quelle région Azure avec une remise de 50 % pour les larges tâches asynchrones en 24 heures.
  • Les déploiements Standard de zone de données garantissent que les données restent dans une zone de données spécifique sur une base de paiement par jeton. Elles sont optimales pour les scénarios où la conformité de la zone de données UE/ÉTATS-Unis est requise.
  • Les déploiements provisionnés de zone de données fournissent un débit prévisible en fonction des unités de traitement réservées au sein d’une zone de données.
  • Les déploiements de batch de la zone de données sont conçus pour les grandes tâches asynchrones de traitement par lots au sein d’une zone de données.
  • Les déploiements standard sont déployés dans une seule région sur une base de paiement par jeton. Ils sont parfaits lorsque vous avez besoin de la conformité de résidence des données dans la région ou dans des scénarios à faible volume.
  • Les déploiements provisionnés régionaux fournissent des PTUs réservés dans une seule région.
  • Développeur Les déploiements de développeurs utilisent n’importe quelle région Azure sur une base de paiement par jeton et sont destinés à une évaluation de modèle affinée uniquement.

Chaque modèle du catalogue indique les types de déploiement qu’il prend en charge. Le portail sélectionne automatiquement la meilleure option de déploiement en fonction des exigences de votre environnement et du modèle. Les déploiements globaux standard dans les ressources Foundry doivent être utilisés chaque fois que cela est possible pour des fonctionnalités maximales.

Déployer un modèle

Pour déployer un modèle à partir du portail Microsoft Foundry :

Tout d’abord, accédez au modèle que vous avez sélectionné dans le catalogue de modèles. Dans la page d’accueil du portail Foundry, sélectionnez Découvrir dans la navigation, puis Modèles dans le volet gauche. Ouvrez la carte de modèle pour passer en revue ses spécifications et les types de déploiement pris en charge.

Sélectionnez Déployer pour commencer le processus de déploiement. Vous pouvez choisir :

  • Paramètres par défaut à déployer rapidement avec les configurations recommandées
  • Paramètres personnalisés pour personnaliser vos options de déploiement

Si le modèle nécessite un abonnement Azure Marketplace (commun pour les modèles des partenaires et de la communauté), vous voyez les conditions d’utilisation. Passez en revue ces conditions, puis sélectionnez Accepter et poursuivre pour les accepter. Les modèles vendus directement par Azure, tels que Azure modèles OpenAI comme GPT-4o-mini, ne nécessitent pas d'abonnements de la Place de marché.

Configurez vos paramètres de déploiement :

  • Nom du déploiement : par défaut, le système utilise le nom du modèle. Vous pouvez le modifier pour créer des noms explicites pour plusieurs déploiements du même modèle. Pendant l’inférence, votre code utilise ce nom de déploiement dans le model paramètre pour router les demandes.
  • Type de déploiement : le portail sélectionne automatiquement le type de déploiement approprié en fonction du modèle et de votre environnement. Chaque modèle prend en charge différents types de déploiement fournissant des garanties de résidence ou de débit de données différentes.

Pour les déploiements de calcul managés, vous configurez également :

  • Référence SKU de machine virtuelle : choisissez parmi les types de machines virtuelles pris en charge. Vous devez disposer d'un quota de calcul Azure Machine Learning pour le SKU sélectionné dans votre abonnement.
  • Nombre d’instances : spécifiez le nombre d’instances à déployer pour la distribution de charge et la redondance.

Après avoir configuré tous les paramètres, sélectionnez Déployer. Une fois le déploiement terminé, vous atterrissez sur le terrain de jeu Foundry, où vous pouvez tester le modèle de manière interactive. Vérifiez que l’état du déploiement affiche Réussi dans votre liste de déploiement.

Gérer les modèles déployés

Après le déploiement, vous gérez vos modèles à partir de la section Build dans le portail Microsoft Foundry. Sélectionnez Générer dans la navigation, puis Modèles dans le volet gauche pour afficher la liste des déploiements dans votre ressource.

Dans la liste de déploiement, sélectionnez un modèle spécifique pour afficher ses détails :

  • Configuration et état du déploiement
  • URL d'endpoint pour l'accès API
  • Clés d’authentification ou jetons
  • Métriques de surveillance et d’utilisation
  • Option permettant d’ajuster les paramètres de déploiement ou de supprimer le déploiement

La page détails du déploiement fournit les informations dont vos applications ont besoin pour se connecter et utiliser le modèle.

Tester dans le terrain de jeu

Le portail Microsoft Foundry inclut des jeux interactifs où vous testez immédiatement les modèles déployés, sans écrire de code. Une fois le déploiement terminé, vous atterrissez automatiquement dans le terrain de jeux, ou vous pouvez sélectionner un déploiement dans votre liste de modèles pour ouvrir le terrain de jeu.

Le terrain de jeu pré-sélectionne votre déploiement, ce qui vous permet de commencer à tester immédiatement. Dans l’interface de conversation :

Entrez des commandes dans la boîte de message et observez les réponses. Le terrain de jeu affiche à la fois votre entrée et la sortie générée par le modèle, ce qui vous aide à comprendre le comportement et la qualité.

Expérimentez avec différents types d’invites pour tester différentes fonctionnalités :

  • Questions simples pour vérifier la compréhension de base
  • Problèmes complexes de raisonnement en plusieurs étapes
  • Demandes de formats ou de styles spécifiques
  • Cas de périphérie susceptibles de révéler des limitations

Ajustez les messages système pour guider le comportement du modèle. Les messages système définissent le contexte, le ton et les instructions qui s’appliquent à toutes les entrées utilisateur. Par exemple, vous pouvez demander au modèle de « répondre en tant que représentant customer service » ou de « fournir des explications concises et techniques ».

Modifiez des paramètres tels que la température (créativité et cohérence), les jetons max (limites de longueur de réponse) et top-p (échantillonnage du noyau) pour affiner le comportement de génération.

Sélectionnez l’onglet Code pour voir des exemples d’appel de votre modèle déployé par programmation. Les exemples de code montrent l’authentification, la configuration de point de terminaison et la mise en forme des requêtes dans des langages tels que Python, C# et JavaScript. Vous pouvez copier ces exemples directement dans votre application.

Le terrain de jeu sert d’environnement de développement pour l’ingénierie et les tests rapides avant d’intégrer le modèle dans votre application.

Accéder aux modèles de manière programmatique

Lorsque vous êtes prêt à intégrer le modèle dans votre application, vous avez besoin de trois éléments clés d’informations à partir des détails du déploiement :

URL du point de terminaison : point de terminaison d’API où votre application envoie des requêtes. Microsoft Foundry prend en charge les points de terminaison de projet pour les fonctionnalités spécifiques à Foundry et les points de terminaison OpenAI v1 pour une compatibilité étendue avec les API de modèle OpenAI.

Clé d’authentification : clé secrète ou jeton que votre application présente pour authentifier les demandes. Vous pouvez également utiliser l’authentification Microsoft Entra ID et configurer votre application pour qu'elle présente un jeton d’authentification basé sur son identité. L’authentification entra ID est recommandée pour les scénarios de production.

Nom du déploiement : nom que vous avez spécifié pendant le déploiement, utilisé dans le model paramètre de requêtes d’API pour acheminer vers votre déploiement spécifique.

Votre application utilise ces détails pour construire des demandes d’API. Le portail Microsoft Foundry fournit des kits SDK et de la documentation de l’API REST pour différents langages de programmation, ainsi que des exemples de code montrant la mise en forme des demandes, l’authentification et la gestion des réponses.

Avec votre modèle déployé et testé, vous êtes prêt à l’intégrer dans des applications ou à procéder à une évaluation plus complète à l’aide de métriques automatisées et de jeux de données de test.