Déployer des modèles en tant que points de terminaison d’API serverless

Article
07/22/2024

Dans cet article, vous apprenez à déployer un modèle depuis le catalogue de modèles en tant qu’API serverless, avec facturation basée sur l’utilisation et les jetons.

Certains modèles du catalogue de modèles peuvent être déployés en tant qu’API serverless avec facturation avec paiement à l’utilisation. Ce type de déploiement permet de consommer des modèles en tant qu’API sans les héberger sur votre abonnement, tout en conservant la sécurité et la conformité de l’entreprise dont les organisations ont besoin. Cette option de déploiement ne nécessite pas de quota à partir de votre abonnement.

Prérequis

Un abonnement Azure avec un moyen de paiement valide. Les abonnements Azure gratuits ou d’essai ne fonctionnent pas. Si vous ne disposez pas d’un abonnement Azure, commencez par créer un compte Azure payant.
Un espace de travail Azure Machine Learning.
Les contrôles d’accès en fonction du rôle Azure (Azure RBAC) sont utilisés pour accorder l’accès aux opérations dans Azure Machine Learning. Pour effectuer les étapes décrites dans cet article, votre compte d’utilisateur doit avoir le Rôle de développeur Azure AI sur le groupe de ressources. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès en fonction du rôle dans Azure Machine Learning.
Vous devez installer les logiciels suivants pour utiliser Azure Machine Learning :
Vous pouvez utiliser n’importe quel navigateur web compatible pour naviguer dans Azure Machine Learning.
L’interface Azure CLI et l’extension ml pour Azure Machine Learning.
```
az extension add -n ml
```
Si l’extension est déjà installée, vérifiez que la version installée est la plus récente.
```
az extension update -n ml
```
Une fois l’extension installée, configurez-la :
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace-name> group=<resource-group> location=<location>
```
Installez le kit de développement logiciel (SDK) Azure Machine Learning pour Python.
```
pip install -U azure-ai-ml
```
Après installation, importez les espaces de noms nécessaires et créez un client connecté à votre espace de travail :
```
from azure.ai.ml import MLClient
from azure.identity import InteractiveBrowserCredential
from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint

client = MLClient(
    credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
    subscription_id="<subscription-id>",
    resource_group_name="<resource-group>",
    workspace_name="<workspace-name>",
)
```
Vous pouvez utiliser n’importe quel navigateur web compatible pour déployer des modèles ARM dans le Portail Microsoft Azure ou en utilisant l’un des outils de déploiement. Ce didacticiel utilise Azure CLI.

Rechercher votre modèle et votre ID de modèle dans le catalogue de modèles

Connectez-vous à Azure Machine Learning Studio.
Pour les modèles proposés par le biais de la Place de marché Azure, vérifiez que votre compte dispose des autorisations de rôle Azure AI Developer sur le groupe de ressources, ou que vous respectez les autorisations requises pour s’abonner aux offres de modèle.

Les modèles proposés par des fournisseurs non-Microsoft (par exemple, les modèles Llama et Mistral) sont facturés via la Place de marché Azure. Pour ces modèles, vous devez vous abonner à votre espace de travail à l’offre de modèle spécifique. Les modèles proposés par Microsoft (par exemple, les modèles Phi-3) n’ont pas cette exigence, car la facturation est effectuée différemment. Pour plus d’informations sur la facturation pour le déploiement serverless de modèles dans le catalogue de modèles, consultez Facturation pour les API serverless.
Accédez à votre espace de travail. Pour utiliser l’offre de déploiement de modèle d’API serverless, votre espace de travail doit appartenir à l’une des régions prises en charge pour le déploiement serverless pour le modèle particulier que vous souhaitez déployer.
Sélectionnez Catalogue de modèles dans la barre latérale gauche et recherchez la carte de modèle du modèle que vous voulez déployer. Dans cet article, vous sélectionnez un modèle Meta-Llama-3-8B-Instruct.
1. Si vous déployez le modèle en utilisant Azure CLI, le kit de développement logiciel (SDK) Python ou ARM, copiez l’ID de modèle.
Important

N’incluez pas la version lors de la copie de l’ID de modèle. Les points de terminaison d’API serverless déploient toujours la version du modèle la plus récente disponible. Par exemple, pour l’ID de modèle azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct/versions/3, copiez azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct.

La section suivante décrit les étapes d’abonnement de votre espace de travail à une offre de modèle. Vous pouvez ignorer cette section et accéder à Déployer le modèle sur un point de terminaison d’API serverless, si vous déployez un modèle Microsoft.

Pour les modèles non-Microsoft proposés via la Place de marché Azure, vous pouvez les déployer sur des points de terminaison d’API serverless pour consommer leurs prédictions. Si c’est la première fois que vous déployez le modèle dans l’espace de travail, vous devez abonner votre espace de travail à l’offre de modèle spécifique depuis la Place de marché Azure. Chaque espace de travail a son propre abonnement à l’offre de modèle spécifique de la Place de marché Azure, ce qui vous permet de contrôler et d’analyser les dépenses.

Remarque

Les modèles proposés via la Place de marché Azure peuvent être déployés vers des points de terminaison d’API serverless dans des régions spécifiques. Vérifiez disponibilité des régions pour les modèles dans les points de terminaison d’API serverless pour vérifier quels modèles et régions sont disponibles. Si celle dont vous avez besoin n’est pas listée, vous pouvez déployer sur un espace de travail d’une région prise en charge, puis utiliser des points de terminaison d’API serverless depuis un autre espace de travail.

Créer l’abonnement à la Place de marché du modèle. Lorsque vous créez un abonnement, vous acceptez les conditions générales associées à l’offre de modèle.
1. Dans la page Détails du modèle, sélectionnez Déployer, puis sélectionnez API serverless avec Azure AI Content Safety (préversion) pour ouvrir l’Assistant Déploiement.
2. Cochez la case pour confirmer que vous avez pris connaissance de la stratégie d’achat Microsoft.
3. Si vous voyez la note Vous disposez déjà d’un abonnement à la Place de marché Azure pour cet espace de travail, vous n’avez pas besoin de créer l’abonnement, car vous en avez déjà un. Vous pouvez continuer vers Déployer le modèle sur un point de terminaison d’API serverless.
4. Dans l’Assistant Déploiement, sélectionnez le lien vers les Conditions d’utilisation de la Place de marché Azure pour en savoir plus sur les conditions d’utilisation. Vous pouvez également sélectionner l’onglet Tarification et conditions pour en savoir plus sur la tarification du modèle sélectionné.
5. Dans l’Assistant Déploiement, sélectionnez le lien vers Conditions d’utilisation de la Place de marché Azure pour en savoir plus sur les conditions d’utilisation. Vous pouvez également sélectionner l’onglet Détails de l’offre de la Place de marché pour en savoir plus sur la tarification du modèle sélectionné.
6. Sélectionnez S’abonner et se Déployer.
subscription.yml
```
name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct
```
Utilisez le fichier subscription.yml pour créer l’abonnement :
```
az ml marketplace-subscription create -f subscription.yml
```
```
model_id="azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct"
subscription_name="Meta-Llama-3-8B-Instruct"

marketplace_subscription = MarketplaceSubscription(
    model_id=model_id,
    name=subscription_name,
)

marketplace_subscription = client.marketplace_subscriptions.begin_create_or_update(
    marketplace_subscription
).result()
```
Utilisez le modèle suivant pour créer un abonnement au modèle :

template.json
```
{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "workspace_name": {
            "defaultValue": "my-workspace",
            "type": "String"
        },
        "subscription_name": {
            "defaultValue": "Meta-Llama-3-8B-Instruct",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/marketplaceSubscriptions",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('workspace_name'), '/', parameters('subscription_name'))]",
            "location": "[parameters('location')]",
            "properties": {
                "modelId": "[parameters('model_id')]"
            }
        }
    ]
}
```
Une fois que vous souscrivez l’espace de travail à l’offre particulière de la Place de marché Azure, les déploiements suivants de la même offre dans le même espace de travail ne nécessitent pas de s’abonner à nouveau.
À tout moment, vous pouvez consulter les offres de modèle auxquelles votre espace de travail est actuellement abonné :
1. Accédez au Portail Azure.
2. Accédez au groupe de ressources auquel appartient l’espace de travail.
3. Dans le filtre Type, sélectionnez SaaS.
4. Vous voyez toutes les offres auxquelles vous êtes actuellement abonné.
5. Sélectionnez n’importe quelle ressource pour en afficher les détails.
```
az ml marketplace-subscription list
```
```
marketplace_sub_list = client.marketplace_subscriptions.list()

for sub in marketplace_sub_list:
    print(sub.as_dict())
```
Vous pouvez utiliser les outils de gestion des ressources pour interroger les ressources. Le code suivant utilise Azure CLI :
```
az resource list \
    --query "[?type=='Microsoft.SaaS']"
```

Déployer le modèle sur un point de terminaison d’API serverless

Une fois que vous avez créé un abonnement pour un modèle autre que Microsoft, vous pouvez déployer le modèle associé sur un point de terminaison d’API serverless. Pour les modèles Microsoft (tels que les modèles Phi-3), vous n’avez pas besoin de créer d’abonnement.

Le point de terminaison d’API serverless fournit un moyen d’utiliser des modèles en tant qu’API sans les héberger dans votre abonnement, tout en conservant le niveau de sécurité professionnel et la conformité dont les organisations ont besoin. Cette option de déploiement ne nécessite pas de quota à partir de votre abonnement.

Dans cette section, vous allez créer un point de terminaison portant le nom meta-llama3-8b-qwerty.

Créer le point de terminaison serverless

Pour déployer un modèle Microsoft qui ne nécessite pas d’abonnement à une offre de modèle, sélectionnez Déployer, puis sélectionnez API serverless avec Azure AI Content Safety (préversion) pour ouvrir l’Assistant Déploiement.
Sinon, pour un modèle autre que Microsoft qui nécessite un abonnement de modèle, si vous venez d’abonner votre espace de travail à l’offre de modèle dans la section précédente, continuez à sélectionner Déployer. Vous pouvez également sélectionner Continuer à déployer (si votre Assistant déploiement avait la note Vous disposez déjà d’un abonnement Place de marché Azure pour cet espace de travail).
Donnez un nom au déploiement. Ce nom va faire partie de l’URL de l’API de déploiement. Cette URL doit être unique dans chaque région Azure.
Sélectionnez Déployer. Une fois que le déploiement est prêt, vous êtes redirigé vers la page Déploiements.

endpoint.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Utilisez le fichier endpoint.yml pour créer le point de terminaison :

az ml serverless-endpoint create -f endpoint.yml

endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()

Utilisez le modèle suivant pour créer un point de terminaison :

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "workspace_name": {
            "defaultValue": "my-workspace",
            "type": "String"
        },
        "endpoint_name": {
            "defaultValue": "meta-llama3-8b-qwerty",
            "type": "String"
        },
        "location": {
            "defaultValue": "eastus2",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/serverlessEndpoints",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('workspace_name'), '/', parameters('endpoint_name'))]",
            "location": "[parameters('location')]",
            "sku": {
                "name": "Consumption"
            },
            "properties": {
                "modelSettings": {
                    "modelId": "[parameters('model_id')]"
                }
            }
        }
    ]
}

Puis créez le déploiement :

az deployment group create \
    --name model-subscription-deployment \
    --resource-group <resource-group> \
    --template-file template.json

Le déploiement d’un modèle Azure peut prendre plusieurs minutes. Au terme, vous voyez un message qui inclut le résultat :

"provisioningState": "Succeeded",

À tout moment, vous pouvez voir les points de terminaison déployés sur votre espace de travail :
1. Accédez à votre espace de travail.
2. Sélectionnez Points de terminaison.
3. Sélectionnez l’onglet Points de terminaison serverless pour afficher les points de terminaison d’API serverless.
```
az ml serverless-endpoint list
```
```
endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()
```
Vous pouvez utiliser les outils de gestion des ressources pour interroger les ressources. Le code suivant utilise Azure CLI :
```
az resource list \
    --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
```
Le point de terminaison créé utilise une authentification par clé pour l’autorisation. Procédez comme suit pour obtenir les clés associées à un point de terminaison donné.
1. Pour revenir à la page du déploiement, sélectionnez le nom du point de terminaison dans la liste des points de terminaison serverless.
2. Notez l’URI cible et la Clédu point de terminaison. Utilisez-les pour appeler le déploiement et générer des prédictions.
Remarque

Lorsque vous utilisez le Portail Azure, les points de terminaison d’API serverless ne sont pas affichés par défaut sur le groupe de ressources. Utilisez l’option Afficher les types masqués pour les afficher sur le groupe de ressources.
```
az ml serverless-endpoint get-credentials -n meta-llama3-8b-qwerty
```
```
endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
print(endpoint_keys.primary_key)
print(endpoint_keys.secondary_key)
```
Utilisez les API REST pour interroger ces informations.
À ce stade, votre point de terminaison est prêt à être utilisé.
Si vous devez utiliser ce déploiement depuis un autre espace de travail ou si vous envisagez d’utiliser un flux d’invite pour créer des applications intelligentes, vous devez créer une connexion au déploiement d’API serverless. Pour savoir comment configurer un point de terminaison d’API serverless existant sur un nouvel espace de travail ou un hub, consultez Consommer des points de terminaison d’API serverless déployés à partir d’un autre espace de travail ou d’un flux d’invite.

Conseil

Si vous utilisez un flux d’invite dans le même espace de travail que celui où le déploiement a été déployé, vous devez toujours créer la connexion.

Utiliser le point de terminaison d’API serverless

Les modèles déployés dans Azure Machine Learning et Azure AI Studio dans des points de terminaison d’API serverless prennent en charge l’API Azure AI Model Inference qui expose un ensemble commun de fonctionnalités pour les modèles fondamentaux et qui peuvent être utilisées par les développeurs pour utiliser des prédictions depuis un ensemble diversifié de modèles de manière uniforme et cohérente.

En savoir plus sur les fonctionnalités de cette API et comment vous pouvez l’utiliser lors de la création d’applications.

Supprimer des points de terminaison et des abonnements

Vous pouvez supprimer les abonnements et les points de terminaison de modèle. La suppression d’un abonnement à un modèle rend tout point de terminaison associé Non sain et inutilisable.

Pour supprimer un point de terminaison d’API serverless :

Accédez à Azure Machine Learning Studio.
Sélectionnez Points de terminaison dans la barre latérale gauche.
Sélectionnez l’onglet Points de terminaison serverless pour afficher les points de terminaison d’API serverless.
Sélectionnez le point de terminaison que vous voulez supprimer.
Sélectionnez Supprimer.

Pour supprimer l’abonnement au modèle associé :

Accédez au Portail Azure.
Accédez au groupe de ressources auquel appartient l’espace de travail.
Dans le filtre Type, sélectionnez SaaS.
Sélectionnez l’abonnement à supprimer.
Sélectionnez Supprimer.

Pour supprimer un point de terminaison d’API serverless :

az ml serverless-endpoint delete \
    --name "meta-llama3-8b-qwerty"

Pour supprimer l’abonnement au modèle associé :

az ml marketplace-subscription delete \
    --name "Meta-Llama-3-8B-Instruct"

Pour supprimer un point de terminaison d’API serverless :

client.serverless_endpoints.begin_delete(endpoint_name).wait()

Pour supprimer l’abonnement au modèle associé :

client.marketplace_subscriptions.begin_delete(subscription_name).wait()

Vous pouvez utiliser les outils de gestion des ressources pour gérer les ressources. Le code suivant utilise Azure CLI :

az resource delete --name <resource-name>

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Le quota est géré par déploiement. Chaque déploiement a une limite de débit de 200 000 jetons par minute et 1 000 requêtes d’API par minute. Toutefois, nous limitons actuellement à un déploiement par modèle par espace de travail. Contactez le Support Microsoft Azure si les limites de débit actuelles ne suffisent pas pour vos scénarios.

Coût des modèles Microsoft

Vous trouverez les informations de tarification sous l’onglet Tarification et conditions de l’Assistant déploiement lors du déploiement de modèles Microsoft (tels que les modèles Phi-3) en tant que points de terminaison d’API serverless.

Coût pour les modèles non-Microsoft

Les modèles non-Microsoft déployés en tant que points de terminaison d’API serverless sont proposés via la Place de marché Azure et intégrés à Azure AI Studio pour une utilisation. Vous trouverez la tarification de la Place de marché Azure lors du déploiement ou de l’optimisation de ces modèles.

Chaque fois qu’un espace de travail s’abonne à une offre donnée depuis la Place de marché Azure, une nouvelle ressource est créée pour suivre les coûts associés à sa consommation. La même ressource est utilisée pour suivre les coûts associés à l’inférence et à l’optimisation ; plusieurs compteurs sont cependant disponibles pour suivre chaque scénario indépendamment.

Pour plus d’informations sur le suivi des coûts, consultez Surveiller les coûts des modèles proposés via la Place de marché Azure.

Les contrôles d’accès en fonction du rôle Azure (Azure RBAC) sont utilisés pour accorder l’accès aux opérations dans Azure Machine Learning. Pour effectuer les étapes de cet article, votre compte d’utilisateur doit avoir le rôle Propriétaire,Contributeur ou Développeur Azure AI attribué pour l’abonnement Azure. Une autre possibilité est que votre compte dispose d’un rôle personnalisé avec les autorisations suivantes :

Sur l’abonnement Azure – pour abonner l’espace de travail à l’offre de la Place de marché Azure, une fois pour chaque espace de travail, par offre :
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
Sur le groupe de ressources – pour créer et utiliser la ressource SaaS :
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
Sur l’espace de travail – pour déployer des points de terminaison (le rôle Scientifique des données Azure Machine Learning a déjà ces autorisations) :
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Pour plus d’informations sur les autorisations, consultez Gérer l’accès à un espace de travail Azure Machine Learning.

Partager via

Déployer des modèles en tant que points de terminaison d’API serverless

Prérequis

Rechercher votre modèle et votre ID de modèle dans le catalogue de modèles

Déployer le modèle sur un point de terminaison d’API serverless

Utiliser le point de terminaison d’API serverless

Supprimer des points de terminaison et des abonnements

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Coût des modèles Microsoft

Coût pour les modèles non-Microsoft

Commentaires

Commentaires

Ressources supplémentaires

Partager via

Déployer des modèles en tant que points de terminaison d’API serverless

Prérequis

Rechercher votre modèle et votre ID de modèle dans le catalogue de modèles

Abonnez votre espace de travail à l’offre de modèles

Déployer le modèle sur un point de terminaison d’API serverless

Utiliser le point de terminaison d’API serverless

Supprimer des points de terminaison et des abonnements

Considérations relatives aux coûts et aux quotas pour les modèles déployés en tant que points de terminaison d’API serverless

Coût des modèles Microsoft

Coût pour les modèles non-Microsoft

Autorisations requises pour s’abonner aux offres de modèles

Contenu connexe

Commentaires

Commentaires

Ressources supplémentaires