Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S'APPLIQUE À :
Azure CLI ml extension v2 (actuel)
Python SDK azure-ai-ml v2 (actuel)
Après avoir entraîné des modèles ou des pipelines Machine Learning, ou trouvé des modèles appropriés à partir du catalogue de modèles, vous devez les déployer en production pour que d’autres utilisateurs puissent les utiliser pour l’inférence. L’inférence est le processus d’application de nouvelles données d’entrée à un modèle ou un pipeline Machine Learning pour générer des sorties. Bien que ces sorties soient généralement appelées « prédictions », l’inférence peut générer des sorties pour d’autres tâches de Machine Learning, telles que la classification et le clustering. Dans Azure Machine Learning, vous effectuez une inférence à l’aide de endpoints.
Points de terminaison et déploiements
Un point de terminaison est une URL stable et durable qui peut être utilisée pour demander ou appeler un modèle. Vous fournissez les entrées requises au point de terminaison et recevez les sorties. Azure Machine Learning prend en charge les déploiements standard, les points de terminaison en ligne et les points de terminaison batch. Un point de terminaison fournit :
- URL stable et durable (par exemple , endpoint-name.region.inference.ml.azure.com)
- Mécanisme d’authentification
- Mécanisme d’autorisation
Un déploiement est un ensemble de ressources et de calcul requis pour héberger le modèle ou le composant qui effectue l’inférence réelle. Un point de terminaison contient un déploiement. Pour les points de terminaison en ligne et par lots, un point de terminaison peut contenir plusieurs déploiements. Les déploiements peuvent héberger des ressources indépendantes et consommer différentes ressources en fonction des besoins des ressources. Un point de terminaison dispose également d’un mécanisme de routage qui peut diriger les requêtes vers l’un de ses déploiements.
Certains types de points de terminaison dans Azure Machine Learning consomment des ressources dédiées sur leurs déploiements. Pour que ces points de terminaison s’exécutent, vous devez disposer d’un quota de calcul sur votre abonnement Azure. Toutefois, certains modèles prennent en charge un déploiement serverless, ce qui leur permet de ne consommer aucun quota de votre abonnement. Pour les déploiements serverless, vous êtes facturé en fonction de l’utilisation.
Intuition
Supposons que vous travaillez sur une application qui prédit le type et la couleur d’une voiture à partir d’une photo. Pour cette application, un utilisateur disposant de certaines informations d’identification effectue une requête HTTP vers une URL et fournit une image d’une voiture dans le cadre de la requête. En retour, l’utilisateur reçoit une réponse qui inclut le type et la couleur de la voiture sous forme de valeurs de chaîne. Dans ce scénario, l’URL sert de point de terminaison.
Supposons maintenant qu’un scientifique des données, Alice, implémente l’application. Alice a une expérience TensorFlow étendue et décide d’implémenter le modèle à l’aide d’un classifieur séquentiel Keras avec une architecture ResNet à partir du hub TensorFlow. Après avoir testé le modèle, Alice est satisfaite de ses résultats et décide d’utiliser le modèle pour résoudre le problème de prédiction de voiture. Le modèle est volumineux et nécessite 8 Go de mémoire avec 4 cœurs à exécuter. Dans ce scénario, le modèle et les ressources d’Alice, tels que le code et le calcul, qui sont nécessaires pour exécuter le modèle constituent un déploiement sous le point de terminaison.
Après quelques mois, l’organisation découvre que l’application fonctionne mal sur des images avec de mauvaises conditions d’éclairage. Bob, un autre scientifique des données, a une expertise dans les techniques d’augmentation des données qui aident les modèles à créer une robustesse pour ce facteur. Toutefois, Bob préfère utiliser PyTorch pour implémenter le modèle et entraîner un nouveau modèle avec PyTorch. Bob veut tester ce modèle en production progressivement jusqu’à ce que l’organisation soit prête à mettre hors service l’ancien modèle. Le nouveau modèle fonctionne également mieux lorsqu’il est déployé sur GPU. Le déploiement doit donc inclure un GPU. Dans ce scénario, le modèle de Bob et les ressources( comme le code et le calcul) nécessaires pour exécuter le modèle constituent un autre déploiement sous le même point de terminaison.
Points de terminaison : déploiement standard, en ligne et traitement par lots
Azure Machine Learning prend en charge les déploiements standard, les points de terminaison online et les points de terminaison batch.
Les déploiements standard et les points de terminaison en ligne sont conçus pour l’inférence en temps réel. Lorsque vous appelez le point de terminaison, les résultats sont retournés dans la réponse du point de terminaison. Les déploiements standard ne consomment pas de quota à partir de votre abonnement ; Au lieu de cela, ils sont facturés avec la facturation standard.
Les endpoints batch sont conçus pour l’inférence par lots prolongée. Lorsque vous appelez un point de terminaison de lot, vous générez une tâche de traitement par lots pour effectuer le travail réellement nécessaire.
Quand utiliser des points de terminaison de déploiement standard, en ligne et batch
Déploiement standard :
Utilisez des déploiements standard pour utiliser de grands modèles fondamentaux pour une inférence en temps réel prêts à l'emploi ou pour le réglage fin de ces modèles. Tous les modèles ne sont pas disponibles pour le déploiement vers des déploiements standard. Nous vous recommandons d’utiliser ce mode de déploiement lorsque :
- Votre modèle est un modèle de base ou une version affinée d’un modèle de base disponible pour les déploiements standard.
- Vous pouvez bénéficier d’un déploiement sans quota.
- Vous n’avez pas besoin de personnaliser la pile d’inférence utilisée pour exécuter le modèle.
Points de terminaison en ligne :
Utilisez des points de terminaison en ligne pour opérationnaliser des modèles pour l’inférence en temps réel dans les requêtes synchrones à faible latence. Nous vous recommandons de les utiliser quand :
- Votre modèle est un modèle de base ou une version affinée d’un modèle de base, mais il n’est pas pris en charge dans le déploiement standard.
- Vous avez des exigences de basse latence.
- Votre modèle peut répondre à la demande dans un délai relativement court.
- Les entrées de votre modèle correspondent à la charge utile HTTP de la requête.
- Vous devez augmenter le nombre de demandes.
Points de terminaison batch :
Utilisez des points de terminaison de lot pour mettre en œuvre des modèles ou des pipelines pour des processus d'inférence asynchrone de longue durée. Nous vous recommandons de les utiliser quand :
- Vous avez des modèles ou des pipelines coûteux qui nécessitent plus de temps pour s’exécuter.
- Vous souhaitez opérationnaliser des pipelines Machine Learning et réutiliser des composants.
- Vous devez effectuer une inférence sur de grandes quantités de données distribuées dans plusieurs fichiers.
- Vous n’avez pas besoin de faible latence.
- Les entrées de votre modèle sont stockées dans un compte de stockage ou dans une ressource de données Azure Machine Learning.
- Vous pouvez tirer parti de la parallélisation.
Comparaison des points de terminaison de déploiement standard, en ligne et par lots
Tous les déploiements standard, points de terminaison en ligne et points de terminaison batch sont basés sur l’idée des points de terminaison. Vous pouvez donc passer facilement d’un point de terminaison à l’autre. Les points de terminaison en ligne et par lots peuvent également gérer plusieurs déploiements pour le même point de terminaison.
Points de terminaison
Le tableau suivant présente un résumé des différentes fonctionnalités disponibles pour les déploiements standard, les points de terminaison en ligne et les points de terminaison batch au niveau du point de terminaison.
| Fonction | Déploiements standard | Points de terminaison en ligne | Points de terminaison batch |
|---|---|---|---|
| URL d’appel stable | Oui | Oui | Oui |
| Prise en charge de plusieurs déploiements | Non | Oui | Oui |
| Routage du déploiement | Aucun | Fractionnement du trafic | Basculer vers la valeur par défaut |
| Mettre en miroir le trafic pour un déploiement sécurisé | Non | Oui | Non |
| Prise en charge de Swagger | Oui | Oui | Non |
| Authentification | Clé | Clé et Microsoft Entra ID (aperçu) | Microsoft Entra ID |
| Prise en charge du réseau privé (hérité) | Non | Oui | Oui |
| Isolation réseau managée | Oui | Oui | Oui (voir configuration supplémentaire requise) |
| Clés gérées par le client | NA | Oui | Oui |
| Base des coûts | Par point de terminaison, par minute1 | Aucun | Aucun |
1Une petite fraction est facturée pour le déploiement standard par minute. Consultez la section déploiements pour les frais liés à la consommation, qui sont facturés par jeton.
Déploiements
Le tableau suivant présente un résumé des différentes fonctionnalités disponibles pour les déploiements standard, les points de terminaison en ligne et les points de terminaison batch au niveau du déploiement. Ces concepts s’appliquent à chaque déploiement sous le point de terminaison (pour les points de terminaison en ligne et par lots) et s’appliquent aux déploiements standard (où le concept de déploiement est intégré au point de terminaison).
| Fonction | Déploiements standard | Points de terminaison en ligne | Points de terminaison batch |
|---|---|---|---|
| Types de déploiement | Modèles | Modèles | Modèles et composants de pipeline |
| Déploiement du modèle MLflow | Non, seuls des modèles spécifiques dans le catalogue | Oui | Oui |
| Déploiement de modèle personnalisé | Non, seuls des modèles spécifiques dans le catalogue | Oui, avec le script de scoring | Oui, avec le script de scoring |
| Serveur d’inférence 2 | API d’inférence de modèle IA Azure | - Azure Machine Learning serveur d’inférence -Triton - Personnalisé (à l’aide de BYOC) |
Inférence par lots |
| Ressource de calcul consommée | Aucun (sans serveur) | Instances ou ressources granulaires | Instances de cluster |
| Type de calcul | Aucun (sans serveur) | Calcul managé et Kubernetes | Calcul managé et Kubernetes |
| Calcul de faible priorité | NA | Non | Oui |
| Réduire les ressources informatiques à zéro | Intégré | Non | Oui |
| Mise à l’échelle automatique des ressources de calcul3 | Intégré | Oui, en fonction de l’utilisation des ressources | Oui, en fonction du nombre de tâches |
| Gestion des surcapacités | Limitation | Limitation | Mise en file d'attente |
| Base des coûts4 | Par jeton | Par déploiement : instances de calcul actives | Par travail : instances de calcul consommées dans le travail (limitées au nombre maximal d’instances du cluster) |
| Test local des déploiements | Non | Oui | Non |
2Serveur d’inférence fait référence à la technologie de service qui accepte les demandes, les traite et crée des réponses. Le serveur d’inférence détermine également le format de l’entrée et les sorties attendues.
3La mise à l’échelle automatique est la capacité d'augmenter ou de réduire dynamiquement les ressources allouées d'un déploiement en fonction de sa charge. Les déploiements en ligne et par lots utilisent différentes stratégies pour la mise à l’échelle automatique. Alors que les déploiements en ligne ajustent leur échelle en fonction de l’utilisation des ressources (comme le processeur, la mémoire, les demandes, etc.), les points de terminaison par lots modifient leur échelle en fonction du nombre de travaux créés.
4 Les déploiements en ligne et par lots sont facturés par les ressources consommées. Dans les déploiements en ligne, les ressources sont approvisionnées au moment du déploiement. Dans les déploiements par lots, les ressources ne sont pas consommées au moment du déploiement, mais au moment où le travail s’exécute. Par conséquent, aucun coût n’est associé au déploiement par lots lui-même. De même, les travaux mis en file d’attente ne consomment pas non plus de ressources.
Interfaces de développement
Les points de terminaison sont conçus pour aider les organisations à rendre opérationnelles les charges de travail au niveau de la production dans Azure Machine Learning. Les points de terminaison sont des ressources robustes et évolutives, et offrent les meilleures fonctionnalités pour implémenter des flux de travail MLOps.
Vous pouvez créer et gérer des points de terminaison batch et en ligne avec plusieurs outils de développement :
- Azure CLI et SDK Python
- Azure Resource Manager/REST API
- portail web Azure Machine Learning studio
- portail Azure (informatique/administrateur)
- Prise en charge des pipelines CI/CD MLOps à l'aide de l'interface Azure CLI et des interfaces REST/ARM
Contenu connexe
- Déployer et évaluer un modèle d'apprentissage automatique en utilisant un point de terminaison en ligne
- Déployez des modèles pour le scoring dans des points de terminaison par lots
- Guide pratique pour déployer des pipelines avec des points de terminaison de traitement par lots
- Comment surveiller les points de terminaison en ligne managés