Déployer des modèles en tant qu’API serverless

Article
05/21/2024

Important

Certaines des fonctionnalités décrites dans cet article peuvent uniquement être disponibles en préversion. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Dans cet article, vous apprenez à déployer un modèle depuis le catalogue de modèles en tant qu’API serverless, avec un paiement basé sur l’utilisation et les jetons.

Certains modèles du catalogue de modèles peuvent être déployés en tant qu’API serverless avec facturation avec paiement à l’utilisation. Ce type de déploiement permet de consommer des modèles en tant qu’API sans les héberger sur votre abonnement, tout en conservant la sécurité et la conformité de l’entreprise dont les organisations ont besoin. Cette option de déploiement ne nécessite pas de quota à partir de votre abonnement.

Prérequis

Un abonnement Azure avec un moyen de paiement valide. Les abonnements Azure gratuits ou d’essai ne fonctionnent pas. Si vous ne disposez pas d’un abonnement Azure, commencez par créer un compte Azure payant.
Un hub Azure AI Studio.
Un projet Azure AI Studio.
Les contrôles d’accès en fonction du rôle (RBAC) Azure sont utilisés pour octroyer l’accès aux opérations dans Azure AI Studio. Pour effectuer les étapes décrites dans cet article, votre compte d’utilisateur doit avoir le Rôle de développeur Azure AI sur le groupe de ressources. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès en fonction du rôle dans Azure AI Studio.
Vous devez installer le logiciel suivant pour utiliser Azure AI Studio :
Vous pouvez utiliser n’importe quel navigateur web compatible pour naviguer dans Azure AI Studio.
L’interface Azure CLI et l’extension ml pour Azure Machine Learning.
```
az extension add -n ml
```
Si l’extension est déjà installée, vérifiez que la version installée est la plus récente.
```
az extension update -n ml
```
Une fois l’extension installée, configurez-la :
```
az account set --subscription <subscription>
az configure --defaults workspace=<project-name> group=<resource-group> location=<location>
```
Installez le kit de développement logiciel (SDK) Azure Machine Learning pour Python.
```
pip install -U azure-ai-ml
```
Après installation, importez les espaces de noms nécessaires et créez un client connecté à votre projet :
```
from azure.ai.ml import MLClient
from azure.identity import InteractiveBrowserCredential
from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint

client = MLClient(
    credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
    subscription_id="<subscription-id>",
    resource_group_name="<resource-group>",
    workspace_name="<project-name>",
)
```
Vous pouvez utiliser n’importe quel navigateur web compatible pour déployer des modèles ARM dans le Portail Microsoft Azure ou en utiliser l’un des outils de déploiement. Ce didacticiel utilise Azure CLI.

Les modèles proposés via la Place de marché Azure peuvent être déployés sur des points de terminaison d’API serverless pour utiliser leurs prédictions. Si c’est la première fois que vous déployez le modèle dans le projet, vous devez abonner votre projet à l’offre de modèle spécifique depuis la Place de marché Azure. Chaque projet a son propre abonnement à l’offre du modèle spécifique de la Place de marché Azure, ce qui vous permet de contrôler et de suivre les dépenses.

Remarque

Les modèles proposés via la Place de marché Azure peuvent être déployés vers des points de terminaison d’API serverless dans des régions spécifiques. Vérifiez la Disponibilité des régions et des modèles des déploiements d’API serverless pour vérifier quels régions et modèles sont disponibles. Si celle dont vous avez besoin n’est pas listée, vous pouvez déployer sur un espace de travail d’une région prise en charge, puis utiliser des points de terminaison d’API serverless depuis un autre espace de travail.

Connectez-vous à Azure AI Studio.
Vérifiez que votre compte dispose des autorisations du rôle Développeur Azure AI sur le groupe de ressources ou que vous respectez les autorisations requises pour s’abonner aux offres de modèles.
Sélectionnez Catalogue de modèles dans la barre latérale gauche et recherchez la carte de modèle du modèle que vous voulez déployer. Dans cet article, vous sélectionnez un modèle Meta-Llama-3-8B-Instruct.
1. Si vous déployez le modèle en utilisant Azure CLI, Python ou ARM, copiez l’ID de modèle.
  
  Important
  
  N’incluez pas la version lors de la copie de l’ID de modèle. Les points de terminaison d’API serverless déploient toujours la version du modèle la plus récente disponible. Par exemple, pour l’ID de modèle azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct/versions/3, copiez azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct.

Créer l’abonnement à la Place de marché du modèle. Lorsque vous créez un abonnement, vous acceptez les conditions générales associées à l’offre de modèle.

Dans la page Détails du modèle, sélectionnez Déployer, puis sélectionnez API serverless pour ouvrir l’Assistant de déploiement.
Sélectionnez le projet dans lequel vous souhaitez déployer vos modèles. Remarque : toutes les régions ne sont pas prises en charge.
Si vous voyez la note Vous disposez déjà d’un abonnement à la Place de marché Azure pour ce projet, vous n’avez pas besoin de créer l’abonnement, car vous en avez déjà un. Vous pouvez continuer vers Déployer le modèle sur un point de terminaison d’API serverless.
Dans l’Assistant Déploiement, sélectionnez le lien vers les Conditions d’utilisation de la Place de marché Azure pour en savoir plus sur les conditions d’utilisation. Vous pouvez également sélectionner l’onglet Tarification et conditions pour en savoir plus sur la tarification du modèle sélectionné.
Sélectionnez S’abonner et se Déployer.

subscription.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Utilisez le fichier précédent pour créer l’abonnement :

az ml marketplace-subscription create -f subscription.yml

model_id="azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct"
subscription_name="Meta-Llama-3-8B-Instruct"

marketplace_subscription = MarketplaceSubscription(
    model_id=model_id,
    name=subscription_name,
)

marketplace_subscription = client.marketplace_subscriptions.begin_create_or_update(
    marketplace_subscription
).result()

Utilisez le modèle suivant pour créer un abonnement au modèle :

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "project_name": {
            "defaultValue": "my-project",
            "type": "String"
        },
        "subscription_name": {
            "defaultValue": "Meta-Llama-3-8B-Instruct",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/marketplaceSubscriptions",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('project_name'), '/', parameters('subscription_name'))]",
            "properties": {
                "modelId": "[parameters('model_id')]"
            }
        }
    ]
}

Une fois que vous avez inscrit le projet dans le cadre de l’offre spécifique de la Place de marché Azure, les déploiements suivants de la même offre dans le même projet ne nécessitent pas un nouvel abonnement.
À tout moment, vous pouvez consulter les offres de modèle auxquelles votre projet est actuellement abonné :
1. Accédez au portail Azure.
2. Accédez au groupe de ressources auquel appartient le projet.
3. Dans le filtre Type, sélectionnez SaaS.
4. Vous voyez toutes les offres auxquelles vous êtes actuellement abonné.
5. Sélectionnez n’importe quelle ressource pour en afficher les détails.
```
az ml marketplace-subscription list
```
```
marketplace_sub_list = client.marketplace_subscriptions.list()

for sub in marketplace_sub_list:
    print(sub.as_dict())
```
Vous pouvez utiliser les outils de gestion des ressources pour interroger les ressources. Le code suivant utilise Azure CLI :
```
az resource list \
    --query "[?type=='Microsoft.SaaS']"
```

Déployer le modèle sur un point de terminaison d’API serverless

Une fois que vous avez créé un abonnement à un modèle, vous pouvez déployer le modèle associé sur un point de terminaison d’API serverless. Le point de terminaison d’API serverless fournit un moyen d’utiliser des modèles en tant qu’API sans les héberger dans votre abonnement, tout en conservant le niveau de sécurité professionnel et la conformité dont les organisations ont besoin. Cette option de déploiement ne nécessite pas de quota à partir de votre abonnement.

Dans cet article, vous créez un point de terminaison avec le nom meta-llama3-8b-qwerty.

Créer le point de terminaison serverless

Dans l’Assistant précédent, sélectionnez Déployer (si vous venez d’abonner le projet à l’offre de modèle dans la section précédente), ou sélectionnez Continuer à déployer (si votre Assistant de déploiement affichait la noteVous disposez déjà d’un abonnement à la Place de marché Azure pour ce projet).
Donnez un nom au déploiement. Ce nom va faire partie de l’URL de l’API de déploiement. Cette URL doit être unique dans chaque région Azure.
Sélectionnez Déployer. Une fois que le déploiement est prêt, vous êtes redirigé vers la page Déploiements.

endpoint.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Utilisez le fichier endpoint.yml pour créer le point de terminaison :

az ml serverless-endpoint create -f endpoint.yml

endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()

Utilisez le modèle suivant pour créer un point de terminaison :

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "project_name": {
            "defaultValue": "my-project",
            "type": "String"
        },
        "endpoint_name": {
            "defaultValue": "meta-llama3-8b-qwerty",
            "type": "String"
        },
        "location": {
            "defaultValue": "eastus2",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/serverlessEndpoints",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('project_name'), '/', parameters('endpoint_name'))]",
            "location": "[parameters('location')]",
            "sku": {
                "name": "Consumption"
            },
            "properties": {
                "modelSettings": {
                    "modelId": "[parameters('model_id')]"
                }
            }
        }
    ]
}

Puis créez le déploiement :

az deployment group create \
    --name model-subscription-deployment \
    --resource-group <resource-group> \
    --template-file template.json

Le déploiement d’un modèle Azure peut prendre plusieurs minutes. Au terme, vous voyez un message qui inclut le résultat :

"provisioningState": "Succeeded",

À tout moment, vous pouvez voir les points de terminaison déployés sur votre espace de travail :
1. Accédez à votre projet.
2. Sélectionnez la section Déploiements
3. Des points de terminaison d’API serverless sont affichés.
```
az ml serverless-endpoint list
```
```
endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()
```
Vous pouvez utiliser les outils de gestion des ressources pour interroger les ressources. Le code suivant utilise Azure CLI :
```
az resource list \
    --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
```
Le point de terminaison créé utilise une authentification par clé pour l’autorisation. Procédez comme suit pour obtenir les clés associées à un point de terminaison donné.
Vous pouvez revenir à la page Déploiements, sélectionner le déploiement et noter l’URI cible du point de terminaison et la clé. Utilisez-les pour appeler le déploiement et générer des prédictions.

Remarque

Lorsque vous utilisez le Portail Azure, les points de terminaison d’API serverless ne sont pas affichés par défaut sur le groupe de ressources. Utilisez l’option Afficher les types masqués pour les afficher sur le groupe de ressources.
```
az ml serverless-endpoint get-credentials -n meta-llama3-8b-qwerty
```
```
endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
print(endpoint_keys.primary_key)
print(endpoint_keys.secondary_key)
```
Utilisez les API REST pour interroger ces informations.
À ce stade, votre point de terminaison est prêt à être utilisé.
Si vous devez utiliser ce déploiement depuis un autre projet ou hub, ou si vous envisagez d’utiliser un flux d’invite pour créer des applications intelligentes, vous devez créer une connexion au déploiement d’API serverless. Pour savoir comment configurer un point de terminaison d’API serverless existant sur un nouveau projet ou hub, consultez la section Utiliser des points de terminaison d’API serverless déployés depuis un autre projet ou depuis un flux d’invite.

Conseil

Si vous utilisez un flux d’invite dans le même projet ou hub que celui où le déploiement a été déployé, vous devez toujours créer la connexion.

Utiliser le point de terminaison d’API serverless

Les modèles déployés dans Azure Machine Learning et Azure AI Studio dans des points de terminaison d’API serverless prennent en charge l’API Azure AI Model Inference qui expose un ensemble commun de fonctionnalités pour les modèles fondamentaux et qui peuvent être utilisées par les développeurs pour utiliser des prédictions depuis un ensemble diversifié de modèles de manière uniforme et cohérente.

En savoir plus sur les fonctionnalités de cette API et sur la façon dont vous pouvez en tirer profit lors de la création d’applications.

Supprimer des points de terminaison et des abonnements

Vous pouvez supprimer les abonnements et les points de terminaison de modèle. La suppression d’un abonnement à un modèle rend tout point de terminaison associé non sain et inutilisable.

Pour supprimer un point de terminaison d’API serverless :

Accéder à Azure AI Studio.
Accédez à Composants>Déploiements.
Ouvrez le déploiement à supprimer.
Sélectionnez Supprimer.

Pour supprimer l’abonnement au modèle associé :

Accédez au Portail Azure.
Accédez au groupe de ressources auquel appartient le projet.
Dans le filtre Type, sélectionnez SaaS.
Sélectionnez l’abonnement à supprimer.
Sélectionnez Supprimer.

Pour supprimer un point de terminaison d’API serverless :

az ml serverless-endpoint delete \
    --name "meta-llama3-8b-qwerty"

Pour supprimer l’abonnement au modèle associé :

az ml marketplace-subscription delete \
    --name "Meta-Llama-3-8B-Instruct"

Pour supprimer un point de terminaison d’API serverless :

client.serverless_endpoints.begin_delete(endpoint_name).wait()

Pour supprimer l’abonnement au modèle associé :

client.marketplace_subscriptions.begin_delete(subscription_name).wait()

Vous pouvez utiliser les outils de gestion des ressources pour gérer les ressources. Le code suivant utilise Azure CLI :

az resource delete --name <resource-name>

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Les modèles déployés en tant que points de terminaison d’API serverless sont proposés via la Place de marché Azure et intégrés à Azure AI Studio pour y être utilisés. Vous trouverez la tarification de la Place de marché Azure lors du déploiement ou de l’optimisation des modèles.

Chaque fois qu’un projet s’abonne à une offre donnée à partir de la Place de marché Azure, une nouvelle ressource est créée pour suivre les coûts associés à sa consommation. La même ressource est utilisée pour suivre les coûts associés à l’inférence et à l’optimisation ; plusieurs compteurs sont cependant disponibles pour suivre chaque scénario indépendamment.

Pour plus d’informations sur le suivi des coûts, consultez Surveiller les coûts des modèles proposés via la Place de marché Azure.

Le quota est géré par déploiement. Chaque déploiement a une limite de débit de 200 000 jetons par minute et 1 000 requêtes d’API par minute. Toutefois, nous limitons actuellement un déploiement par modèle par projet. Contactez le Support Microsoft Azure si les limites de débit actuelles ne suffisent pas pour vos scénarios.

Les contrôles d’accès en fonction du rôle (RBAC) Azure sont utilisés pour octroyer l’accès aux opérations dans Azure AI Studio. Pour effectuer les étapes de cet article, votre compte d’utilisateur doit avoir le rôle Propriétaire,Contributeur ou Développeur Azure AI attribué pour l’abonnement Azure. Une autre possibilité est que votre compte dispose d’un rôle personnalisé avec les autorisations suivantes :

Sur l’abonnement Azure – pour abonner l’espace de travail à l’offre de la Place de marché Azure, une fois pour chaque espace de travail, par offre :
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
Sur le groupe de ressources – pour créer et utiliser la ressource SaaS :
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
Sur l’espace de travail – pour déployer des points de terminaison (le rôle Scientifique des données Azure Machine Learning a déjà ces autorisations) :
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Pour plus d’informations sur les autorisations, consultez Contrôle d’accès en fonction du rôle dans Azure AI Studio.

Étape suivante

Affiner un modèle Meta Llama 2 dans Azure AI Studio

Partage via

Déployer des modèles en tant qu’API serverless

Prérequis

Déployer le modèle sur un point de terminaison d’API serverless

Utiliser le point de terminaison d’API serverless

Supprimer des points de terminaison et des abonnements

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Étape suivante

Commentaires

Commentaires

Ressources supplémentaires

Partage via

Déployer des modèles en tant qu’API serverless

Prérequis

Abonnez votre projet à l’offre de modèles

Déployer le modèle sur un point de terminaison d’API serverless

Utiliser le point de terminaison d’API serverless

Supprimer des points de terminaison et des abonnements

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Autorisations requises pour s’abonner aux offres de modèles

Étape suivante

Commentaires

Commentaires

Ressources supplémentaires