Points de terminaison pour l’inférence en production

S'APPLIQUE À :Azure CLI ml extension v2 (actuel)Python SDK azure-ai-ml v2 (actuel)

Après avoir entraîné des modèles ou des pipelines Machine Learning, ou trouvé des modèles appropriés à partir du catalogue de modèles, vous devez les déployer en production pour que d’autres utilisateurs puissent les utiliser pour l’inférence. L’inférence est le processus d’application de nouvelles données d’entrée à un modèle ou un pipeline Machine Learning pour générer des sorties. Bien que ces sorties soient généralement appelées « prédictions », l’inférence peut générer des sorties pour d’autres tâches de Machine Learning, telles que la classification et le clustering. Dans Azure Machine Learning, vous effectuez une inférence à l’aide de endpoints.

Points de terminaison et déploiements

Un point de terminaison est une URL stable et durable qui peut être utilisée pour demander ou appeler un modèle. Vous fournissez les entrées requises au point de terminaison et recevez les sorties. Azure Machine Learning prend en charge les déploiements standard, les points de terminaison en ligne et les points de terminaison batch. Un point de terminaison fournit :

  • URL stable et durable (par exemple , endpoint-name.region.inference.ml.azure.com)
  • Mécanisme d’authentification
  • Mécanisme d’autorisation

Un déploiement est un ensemble de ressources et de calcul requis pour héberger le modèle ou le composant qui effectue l’inférence réelle. Un point de terminaison contient un déploiement. Pour les points de terminaison en ligne et par lots, un point de terminaison peut contenir plusieurs déploiements. Les déploiements peuvent héberger des ressources indépendantes et consommer différentes ressources en fonction des besoins des ressources. Un point de terminaison dispose également d’un mécanisme de routage qui peut diriger les requêtes vers l’un de ses déploiements.

Certains types de points de terminaison dans Azure Machine Learning consomment des ressources dédiées sur leurs déploiements. Pour que ces points de terminaison s’exécutent, vous devez disposer d’un quota de calcul sur votre abonnement Azure. Toutefois, certains modèles prennent en charge un déploiement serverless, ce qui leur permet de ne consommer aucun quota de votre abonnement. Pour les déploiements serverless, vous êtes facturé en fonction de l’utilisation.

Intuition

Supposons que vous travaillez sur une application qui prédit le type et la couleur d’une voiture à partir d’une photo. Pour cette application, un utilisateur disposant de certaines informations d’identification effectue une requête HTTP vers une URL et fournit une image d’une voiture dans le cadre de la requête. En retour, l’utilisateur reçoit une réponse qui inclut le type et la couleur de la voiture sous forme de valeurs de chaîne. Dans ce scénario, l’URL sert de point de terminaison.

Diagramme montrant le concept d’un point de terminaison.

Supposons maintenant qu’un scientifique des données, Alice, implémente l’application. Alice a une expérience TensorFlow étendue et décide d’implémenter le modèle à l’aide d’un classifieur séquentiel Keras avec une architecture ResNet à partir du hub TensorFlow. Après avoir testé le modèle, Alice est satisfaite de ses résultats et décide d’utiliser le modèle pour résoudre le problème de prédiction de voiture. Le modèle est volumineux et nécessite 8 Go de mémoire avec 4 cœurs à exécuter. Dans ce scénario, le modèle et les ressources d’Alice, tels que le code et le calcul, qui sont nécessaires pour exécuter le modèle constituent un déploiement sous le point de terminaison.

Diagramme montrant le concept d’un déploiement.

Après quelques mois, l’organisation découvre que l’application fonctionne mal sur des images avec de mauvaises conditions d’éclairage. Bob, un autre scientifique des données, a une expertise dans les techniques d’augmentation des données qui aident les modèles à créer une robustesse pour ce facteur. Toutefois, Bob préfère utiliser PyTorch pour implémenter le modèle et entraîner un nouveau modèle avec PyTorch. Bob veut tester ce modèle en production progressivement jusqu’à ce que l’organisation soit prête à mettre hors service l’ancien modèle. Le nouveau modèle fonctionne également mieux lorsqu’il est déployé sur GPU. Le déploiement doit donc inclure un GPU. Dans ce scénario, le modèle de Bob et les ressources( comme le code et le calcul) nécessaires pour exécuter le modèle constituent un autre déploiement sous le même point de terminaison.

Diagramme montrant le concept d’un point de terminaison avec plusieurs déploiements.

Points de terminaison : déploiement standard, en ligne et traitement par lots

Azure Machine Learning prend en charge les déploiements standard, les points de terminaison online et les points de terminaison batch.

Les déploiements standard et les points de terminaison en ligne sont conçus pour l’inférence en temps réel. Lorsque vous appelez le point de terminaison, les résultats sont retournés dans la réponse du point de terminaison. Les déploiements standard ne consomment pas de quota à partir de votre abonnement ; Au lieu de cela, ils sont facturés avec la facturation standard.

Les endpoints batch sont conçus pour l’inférence par lots prolongée. Lorsque vous appelez un point de terminaison de lot, vous générez une tâche de traitement par lots pour effectuer le travail réellement nécessaire.

Quand utiliser des points de terminaison de déploiement standard, en ligne et batch

Déploiement standard :

Utilisez des déploiements standard pour utiliser de grands modèles fondamentaux pour une inférence en temps réel prêts à l'emploi ou pour le réglage fin de ces modèles. Tous les modèles ne sont pas disponibles pour le déploiement vers des déploiements standard. Nous vous recommandons d’utiliser ce mode de déploiement lorsque :

  • Votre modèle est un modèle de base ou une version affinée d’un modèle de base disponible pour les déploiements standard.
  • Vous pouvez bénéficier d’un déploiement sans quota.
  • Vous n’avez pas besoin de personnaliser la pile d’inférence utilisée pour exécuter le modèle.

Points de terminaison en ligne :

Utilisez des points de terminaison en ligne pour opérationnaliser des modèles pour l’inférence en temps réel dans les requêtes synchrones à faible latence. Nous vous recommandons de les utiliser quand :

  • Votre modèle est un modèle de base ou une version affinée d’un modèle de base, mais il n’est pas pris en charge dans le déploiement standard.
  • Vous avez des exigences de basse latence.
  • Votre modèle peut répondre à la demande dans un délai relativement court.
  • Les entrées de votre modèle correspondent à la charge utile HTTP de la requête.
  • Vous devez augmenter le nombre de demandes.

Points de terminaison batch :

Utilisez des points de terminaison de lot pour mettre en œuvre des modèles ou des pipelines pour des processus d'inférence asynchrone de longue durée. Nous vous recommandons de les utiliser quand :

  • Vous avez des modèles ou des pipelines coûteux qui nécessitent plus de temps pour s’exécuter.
  • Vous souhaitez opérationnaliser des pipelines Machine Learning et réutiliser des composants.
  • Vous devez effectuer une inférence sur de grandes quantités de données distribuées dans plusieurs fichiers.
  • Vous n’avez pas besoin de faible latence.
  • Les entrées de votre modèle sont stockées dans un compte de stockage ou dans une ressource de données Azure Machine Learning.
  • Vous pouvez tirer parti de la parallélisation.

Comparaison des points de terminaison de déploiement standard, en ligne et par lots

Tous les déploiements standard, points de terminaison en ligne et points de terminaison batch sont basés sur l’idée des points de terminaison. Vous pouvez donc passer facilement d’un point de terminaison à l’autre. Les points de terminaison en ligne et par lots peuvent également gérer plusieurs déploiements pour le même point de terminaison.

Points de terminaison

Le tableau suivant présente un résumé des différentes fonctionnalités disponibles pour les déploiements standard, les points de terminaison en ligne et les points de terminaison batch au niveau du point de terminaison.

Fonction Déploiements standard Points de terminaison en ligne Points de terminaison batch
URL d’appel stable Oui Oui Oui
Prise en charge de plusieurs déploiements Non Oui Oui
Routage du déploiement Aucun Fractionnement du trafic Basculer vers la valeur par défaut
Mettre en miroir le trafic pour un déploiement sécurisé Non Oui Non
Prise en charge de Swagger Oui Oui Non
Authentification Clé Clé et Microsoft Entra ID (aperçu) Microsoft Entra ID
Prise en charge du réseau privé (hérité) Non Oui Oui
Isolation réseau managée Oui Oui Oui (voir configuration supplémentaire requise)
Clés gérées par le client NA Oui Oui
Base des coûts Par point de terminaison, par minute1 Aucun Aucun

1Une petite fraction est facturée pour le déploiement standard par minute. Consultez la section déploiements pour les frais liés à la consommation, qui sont facturés par jeton.

Déploiements

Le tableau suivant présente un résumé des différentes fonctionnalités disponibles pour les déploiements standard, les points de terminaison en ligne et les points de terminaison batch au niveau du déploiement. Ces concepts s’appliquent à chaque déploiement sous le point de terminaison (pour les points de terminaison en ligne et par lots) et s’appliquent aux déploiements standard (où le concept de déploiement est intégré au point de terminaison).

Fonction Déploiements standard Points de terminaison en ligne Points de terminaison batch
Types de déploiement Modèles Modèles Modèles et composants de pipeline
Déploiement du modèle MLflow Non, seuls des modèles spécifiques dans le catalogue Oui Oui
Déploiement de modèle personnalisé Non, seuls des modèles spécifiques dans le catalogue Oui, avec le script de scoring Oui, avec le script de scoring
Serveur d’inférence 2 API d’inférence de modèle IA Azure - Azure Machine Learning serveur d’inférence
-Triton
- Personnalisé (à l’aide de BYOC)
Inférence par lots
Ressource de calcul consommée Aucun (sans serveur) Instances ou ressources granulaires Instances de cluster
Type de calcul Aucun (sans serveur) Calcul managé et Kubernetes Calcul managé et Kubernetes
Calcul de faible priorité NA Non Oui
Réduire les ressources informatiques à zéro Intégré Non Oui
Mise à l’échelle automatique des ressources de calcul3 Intégré Oui, en fonction de l’utilisation des ressources Oui, en fonction du nombre de tâches
Gestion des surcapacités Limitation Limitation Mise en file d'attente
Base des coûts4 Par jeton Par déploiement : instances de calcul actives Par travail : instances de calcul consommées dans le travail (limitées au nombre maximal d’instances du cluster)
Test local des déploiements Non Oui Non

2Serveur d’inférence fait référence à la technologie de service qui accepte les demandes, les traite et crée des réponses. Le serveur d’inférence détermine également le format de l’entrée et les sorties attendues.

3La mise à l’échelle automatique est la capacité d'augmenter ou de réduire dynamiquement les ressources allouées d'un déploiement en fonction de sa charge. Les déploiements en ligne et par lots utilisent différentes stratégies pour la mise à l’échelle automatique. Alors que les déploiements en ligne ajustent leur échelle en fonction de l’utilisation des ressources (comme le processeur, la mémoire, les demandes, etc.), les points de terminaison par lots modifient leur échelle en fonction du nombre de travaux créés.

4 Les déploiements en ligne et par lots sont facturés par les ressources consommées. Dans les déploiements en ligne, les ressources sont approvisionnées au moment du déploiement. Dans les déploiements par lots, les ressources ne sont pas consommées au moment du déploiement, mais au moment où le travail s’exécute. Par conséquent, aucun coût n’est associé au déploiement par lots lui-même. De même, les travaux mis en file d’attente ne consomment pas non plus de ressources.

Interfaces de développement

Les points de terminaison sont conçus pour aider les organisations à rendre opérationnelles les charges de travail au niveau de la production dans Azure Machine Learning. Les points de terminaison sont des ressources robustes et évolutives, et offrent les meilleures fonctionnalités pour implémenter des flux de travail MLOps.

Vous pouvez créer et gérer des points de terminaison batch et en ligne avec plusieurs outils de développement :

  • Azure CLI et SDK Python
  • Azure Resource Manager/REST API
  • portail web Azure Machine Learning studio
  • portail Azure (informatique/administrateur)
  • Prise en charge des pipelines CI/CD MLOps à l'aide de l'interface Azure CLI et des interfaces REST/ARM