Opérations de Machine Learning

Cet article décrit trois architectures Azure pour les opérations de machine learning qui ont des pipelines d’intégration et de livraison continues (CI/CD) de bout en bout et des pipelines de ré-entraînement. Les architectures sont destinées aux applications d’IA suivantes :

Apprentissage automatique classique
Vision par ordinateur (CV)
Traitement en langage naturel

Ces architectures sont le produit du projet MLOps v2. Elles intègrent les bonnes pratiques identifiées par les architectes de solutions lors du développement de diverses solutions de machine learning. Le résultat est des modèles déployables, reproductibles et maintenables. Les trois architectures utilisent le service Azure Machine Learning.

Pour une implémentation avec des exemples de modèles de déploiement pour MLOps v2, consultez le dépôt GitHub Azure MLOps v2.

Cas d’usage potentiels

Machine learning classique : Les prévisions de séries temporelles, la régression et la classification sur des données structurées tabulaires sont les cas d’utilisation les plus courants dans cette catégorie. Voici quelques exemples :
- Classification binaire et multi-étiquettes.
- Régression linéaire, polynomiale, ridge, lasso, quantile et bayésienne.
- ARIMA, autorégressive, SARIMA, VAR, SES, LSTM.
CV (Vision par ordinateur) : Le cadre MLOps dans cet article se concentre principalement sur les cas d’utilisation de la vision par ordinateur pour la segmentation et la classification d'images.
Traitement du langage naturel : Vous pouvez utiliser ce cadre MLOps pour implémenter :
- Reconnaissance d’entité nommée
- Classification de texte
- Génération de texte
- analyse de sentiments
- Traduction
- Réponses aux questions
- Résumé
- Détection d’expression
- Détection de la langue
- Étiquetage des parties du discours

Les simulations AI, l’apprentissage par renforcement profond et d’autres formes d’IA ne sont pas décrits dans cet article.

MLOps en tant que domaine de conception clé pour les charges de travail en IA

La planification et l’implémentation d’un MLOps et genAIOps sont un domaine de conception principal dans les charges de travail IA sur Azure. Pour obtenir un arrière-plan sur la raison pour laquelle ces charges de travail Machine Learning ont besoin d’opérations spécialisées, consultez MLOps et GenAIOps pour les charges de travail IA sur Azure dans Azure Well-Architected Framework.

Architecture

Le modèle architectural MLOps v2 a quatre principaux composants modulaires, ou phases, du cycle de vie MLOps :

Patrimoine de données
Administration et paramétrage
Développement du modèle, ou phase de boucle interne
Déploiement du modèle, ou phase de boucle externe

Les composants précédents, les connexions entre eux et les publics typiques impliqués sont standard dans tous les scénarios d’architectures MLOps v2. Les variations dans les détails de chaque composant dépendent du scénario.

L’architecture de base pour MLOps v2 pour le machine learning est le scénario de machine learning classique pour les données tabulaires. Les architectures CV et NLP s’appuient sur cette architecture de base et la modifient.

MLOps v2 couvre les architectures suivantes qui sont décrites dans cet article :

Architecture d’apprentissage automatique classique
Architecture CV de Machine Learning
Architecture de traitement du langage naturel Machine Learning

Architecture d’apprentissage automatique classique

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture d’apprentissage automatique classique

Patrimoine de données

Ce composant illustre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant du cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Une coche verte indique les sources de données et les cibles qui représentent les bonnes pratiques recommandées basées sur le cas d’utilisation du client.
Administration et paramétrage

Ce composant est la première étape du déploiement de la solution MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Par exemple, l’équipe d’infrastructure pourrait :
1. Créer des référentiels de code source de projet.
2. Utiliser Bicep ou Terraform pour créer des espaces de travail Machine Learning.
3. Créer ou modifier des ensembles de données et des ressources de calcul pour le développement et le déploiement de modèles.
4. Définir les utilisateurs de l’équipe de projet, leurs rôles et les contrôles d’accès à d’autres ressources.
5. Créez des pipelines CI/CD.
6. Créer des composants de surveillance pour collecter et créer des alertes pour les métriques de modèle et d’infrastructure.
Le public principal associé à cette phase est l’équipe d’infrastructure, mais une organisation pourrait également avoir des ingénieurs de données, des ingénieurs en machine learning ou des data scientists.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow de science des données itératif qui agit au sein d’un espace de travail Machine Learning dédié et sécurisé. Le diagramme précédent montre un workflow typique. Le processus commence par l’ingestion de données, passe par l’analyse exploratoire des données, l’expérimentation, le développement et l’évaluation du modèle, puis enregistre un modèle pour une utilisation en production. Ce composant modulaire est indépendant et adaptable au processus que votre équipe de science des données utilise pour développer des modèles.

Les personnages associés à cette phase sont les scientifiques des données et les ingénieurs d’apprentissage automatique.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines de CI déclenchés, soit automatiquement par une inscription de modèle, soit par approbation humaine, promeuvent le modèle et toutes ses dépendances vers la phase du modèle de déploiement.

Les personnages associés à cette phase sont généralement des ingénieurs d’apprentissage automatique.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.

Les personnages associés à cette phase sont principalement des ingénieurs d’apprentissage automatique.
Préparation et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que le ré-entraînement et le test du modèle candidat sur les données de production, les déploiements de test pour la performance du point de terminaison, les contrôles de qualité des données, les tests unitaires et les contrôles d’IA responsables pour les biais du modèle et des données. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle a passé la phase de préparation et de test, les ingénieurs en machine learning peuvent utiliser une approbation contrôlée avec intervention humaine pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Supervision

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance du modèle et des données peut inclure la vérification des dérives du modèle et des données, la performance du modèle sur de nouvelles données et les problèmes d’IA responsable. La surveillance de l’infrastructure pourrait identifier une réponse lente du point de terminaison, une capacité de calcul inadéquate ou des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

En fonction des critères du modèle et des données, tels que les seuils de métriques ou les calendriers, des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre. Par exemple, un déclencheur pourrait ré-entraîner un modèle pour utiliser de nouvelles données de production, puis rediriger le modèle vers la préparation et les tests pour une évaluation avant production. Ou un problème de modèle ou de données pourrait déclencher une action nécessitant un retour à la phase de développement du modèle où les data scientists peuvent enquêter sur le problème et potentiellement développer un nouveau modèle.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Des déclencheurs et des notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer les ressources de calcul et de réseau.

Architecture CV de Machine Learning

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture CV

L’architecture Machine Learning CV est basée sur l’architecture de machine learning classique, mais elle a des modifications spécifiques aux scénarios CV supervisés.

Patrimoine de données

Ce composant démontre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant dans le cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Les images pour les scénarios CV peuvent provenir de diverses sources de données. Pour une efficacité lors du développement et du déploiement de modèles CV avec Machine Learning, nous recommandons Azure Blob Storage et Azure Data Lake Storage.
Administration et paramétrage

Ce composant est la première étape du déploiement MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Pour les scénarios CV, l’administration et la configuration de l’environnement MLOps v2 sont en grande partie les mêmes que pour le machine learning classique mais incluent une étape supplémentaire. L’équipe d’infrastructure utilise la fonctionnalité d’étiquetage de Machine Learning ou un autre outil pour créer des projets d’étiquetage et d’annotation d’images.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow itératif de science des données effectué dans un espace de travail Machine Learning dédié et sécurisé. La principale différence entre ce workflow et le scénario de machine learning classique est que l’étiquetage et l’annotation des images sont un composant clé de cette boucle de développement.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines CI qui sont déclenchés automatiquement par l’inscription de modèle ou par l’approbation de la boucle humaine contrôlée favorisent le modèle et toutes les autres dépendances de modèle à la phase de déploiement du modèle.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.
Préparation et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que des déploiements de test pour la performance du point de terminaison, des contrôles de qualité des données, des tests unitaires et des contrôles d’IA responsable pour les biais du modèle et des données. Pour les scénarios de vision par ordinateur (CV), les ingénieurs en machine learning n’ont pas besoin de réentraîner le modèle candidat sur les données de production en raison des contraintes de ressources et de temps. L’équipe de science des données peut plutôt utiliser les données de production pour le développement du modèle. Le modèle candidat enregistré à partir de la boucle de développement est évalué pour la production. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle a passé la phase de préparation et de test, les ingénieurs en machine learning peuvent utiliser une approbation contrôlée avec intervention humaine pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Supervision

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance de modèle et de données peut inclure la vérification des performances du modèle sur de nouvelles images. La surveillance de l’infrastructure pourrait identifier une réponse lente du point de terminaison, une capacité de calcul inadéquate ou des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

La surveillance des données et du modèle et les phases d’événement et d’action de MLOps pour le traitement du langage naturel sont les principales différences par rapport au machine learning classique. Un réapprentissage automatisé n’est généralement pas effectué dans les scénarios CV quand une dégradation des performances du modèle sur de nouvelles images est détectée. Dans ce cas, un processus humain dans la boucle est nécessaire pour examiner et annoter de nouvelles images pour le modèle qui fonctionne mal. L’action suivante revient souvent à la boucle de développement du modèle pour mettre à jour le modèle avec les nouvelles images.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Les déclencheurs et les notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer l’environnement, le calcul et les ressources réseau.

Architecture de traitement du langage naturel Machine Learning

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture de traitement du langage naturel

L’architecture de traitement du langage naturel Machine Learning est basée sur l’architecture de machine learning classique, mais elle a quelques modifications spécifiques aux scénarios NLP.

Patrimoine de données

Ce composant démontre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant dans le cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Une coche verte indique les sources et les cibles qui représentent les bonnes pratiques recommandées basées sur le cas d’utilisation du client.
Administration et paramétrage

Ce composant est la première étape du déploiement MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Pour les scénarios de traitement du langage naturel, l’administration et la configuration de l’environnement MLOps v2 sont largement les mêmes que pour le Machine Learning classique, mais avec une étape supplémentaire : créer des projets d’étiquetage et d’annotation de texte à l’aide de la fonctionnalité d’étiquetage de Machine Learning ou d’un autre outil.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow itératif de science des données effectué dans un espace de travail Machine Learning dédié et sécurisé. La boucle de développement de modèle NLP typique diffère du scénario de machine learning classique en ce que les étapes de développement typiques pour ce scénario incluent des annotateurs pour les phrases et la tokenisation, la normalisation et les embeddings pour les données textuelles.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines CI qui sont déclenchés automatiquement par l’inscription de modèle ou par l’approbation de la boucle humaine contrôlée favorisent le modèle et toutes les autres dépendances de modèle à la phase de déploiement du modèle.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.
Préparation et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que le ré-entraînement et le test du modèle candidat sur les données de production, les déploiements de test pour la performance du point de terminaison, les contrôles de qualité des données, les tests unitaires et les contrôles d’IA responsables pour les biais du modèle et des données. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle a passé la phase de préparation et de test, les ingénieurs en machine learning peuvent utiliser une approbation contrôlée avec intervention humaine pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Supervision

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance du modèle et des données peut inclure la vérification des dérives du modèle et des données, la performance du modèle sur de nouvelles données textuelles et les problèmes d’IA responsable. La surveillance de l’infrastructure pourrait identifier des problèmes tels qu’une réponse lente du point de terminaison, une capacité de calcul inadéquate et des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

Comme pour l’architecture CV, la surveillance des données et du modèle et les phases d’événement et d’action de MLOps pour le traitement du langage naturel sont les principales différences par rapport au machine learning classique. Le ré-entraînement automatisé n’est généralement pas effectué dans les scénarios de traitement du langage naturel lorsque la dégradation des performances du modèle sur un nouveau texte est détectée. Dans ce cas, un processus avec supervision humaine est nécessaire pour examiner et annoter les nouvelles données textuelles pour le modèle qui fonctionne mal. Souvent, l’action suivante consiste à revenir à la boucle de développement de modèle pour mettre à jour le modèle avec les nouvelles données texte.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Les déclencheurs et les notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer les ressources de calcul et de réseau.

Composants

Machine Learning est un service cloud que vous pouvez utiliser pour entraîner, évaluer, déployer et gérer des modèles de machine learning à grande échelle. Dans cette architecture, il s’agit de la plateforme principale pour le développement, le déploiement, la supervision et la gestion des modèles tout au long du cycle de vie MLOps.
Azure Pipelines est un système de build et de test basé sur Azure DevOps et utilisé pour les pipelines de build et de release. Azure Pipelines divise ces pipelines en étapes logiques appelées tâches. Dans cette architecture, il automatise et gère les flux de travail CI/CD pour garantir un déploiement et un test cohérents des solutions Machine Learning.
GitHub est une plateforme d’hébergement de code. Dans cette architecture, GitHub est le référentiel central pour le code source, le contrôle de version et la collaboration. Il s’intègre aux pipelines CI/CD pour l’automatisation.
Azure Arc est une plateforme qui utilise Azure Resource Manager pour gérer les ressources Azure et les ressources sur site. Les ressources peuvent inclure des machines virtuelles, des clusters Kubernetes et des bases de données. Dans cette architecture, Azure Arc fournit une gestion et une gouvernance unifiées pour les environnements machine learning hybrides et multiclouds.
Kubernetes est un système open-source que vous pouvez utiliser pour automatiser le déploiement, la mise à l’échelle et la gestion des applications conteneurisées. Dans cette architecture, Kubernetes orchestre les charges de travail Machine Learning en conteneur pour permettre des déploiements évolutifs, efficaces et résilients.
Azure Data Lake est un système de fichiers compatible Hadoop. Il offre un espace de noms hiérarchique intégré, ainsi que l'échelle massive et l'économie du stockage Blob. Dans cette architecture, il stocke et gère de grands volumes de données structurées et non structurées pour les flux de travail Machine Learning.
Microsoft Fabric est une plateforme unifiée qui peut répondre aux besoins de données et d’analytique de votre organisation. Dans cette architecture, Fabric facilite l’intégration, la préparation et l’analytique des données de bout en bout pour prendre en charge le composant de patrimoine de données de MLOps.
Azure Event Hubs est un service qui ingère des flux de données générés par des applications clientes. Dans cette architecture, Event Hubs ingère et stocke les données de streaming en temps réel pour permettre la capture et l’analyse des données pour les pipelines Machine Learning. Les clients peuvent se connecter aux points de terminaison du hub pour récupérer des messages pour le traitement. Cette architecture utilise l’intégration Data Lake Storage.

Autres considérations

Le modèle architectural MLOps v2 précédent a plusieurs composants critiques, notamment Azure RBAC qui s’aligne sur les parties prenantes de l’entreprise, la gestion efficace des packages et les mécanismes de supervision robustes. Ces composants contribuent collectivement à la mise en œuvre et à la gestion réussies des workflows de machine learning.

RBAC Azure basé sur la personne

Il est crucial de gérer l’accès aux données et aux ressources de machine learning. Azure RBAC fournit une infrastructure robuste pour vous aider à gérer qui peut effectuer des actions spécifiques et accéder à des zones spécifiques au sein de votre solution. Concevez votre stratégie de segmentation d’identité pour s’aligner sur le cycle de vie des modèles de machine learning dans Machine Learning et les personas inclus dans le processus. Chaque personne a un ensemble spécifique de responsabilités qui sont reflétées dans leurs rôles RBAC Azure et leur appartenance au groupe.

Exemples de personas

Pour prendre en charge la segmentation appropriée dans une charge de travail Machine Learning, tenez compte des personnes courantes suivantes qui informent la conception de groupe RBAC Azure basée sur l’identité .

Data scientist et ingénieur en machine learning

Les scientifiques des données et les ingénieurs machine learning effectuent diverses activités de machine learning et de science des données dans le cycle de vie du développement logiciel d’un projet. Leurs tâches incluent l’analyse exploratoire des données et le prétraitement des données. Les data scientists et les ingénieurs en machine learning sont responsables de l’entraînement, de l’évaluation et du déploiement des modèles. Les responsabilités de ces rôles incluent également des activités de réparation d’interruption pour les modèles, packages et données Machine Learning. Ces tâches sont hors de portée de l’équipe de support technique de la plateforme.