Opérations de Machine Learning

Article
07/18/2024

Cet article décrit trois architectures Azure pour les opérations de machine learning qui ont des pipelines d’intégration et de livraison continues (CI/CD) de bout en bout et des pipelines de ré-entraînement. Les architectures sont destinées aux applications d’IA suivantes :

Apprentissage automatique classique
Vision par ordinateur (CV)
Traitement en langage naturel

Ces architectures sont le produit du projet MLOps v2. Elles intègrent les bonnes pratiques identifiées par les architectes de solutions lors du développement de diverses solutions de machine learning. Le résultat est des modèles déployables, reproductibles et maintenables. Les trois architectures utilisent le service Azure Machine Learning.

Pour une implémentation avec des exemples de modèles de déploiement pour MLOps v2, consultez le dépôt GitHub Azure MLOps v2.

Cas d’usage potentiels

Machine learning classique : Les prévisions de séries temporelles, la régression et la classification sur des données structurées tabulaires sont les cas d’utilisation les plus courants dans cette catégorie. Voici quelques exemples :
- Classification binaire et multi-étiquettes.
- Régression linéaire, polynomiale, ridge, lasso, quantile et bayésienne.
- ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.
CV : Le cadre MLOps dans cet article se concentre principalement sur les cas d’utilisation CV de segmentation et de classification d’images.
Traitement du langage naturel : Vous pouvez utiliser ce cadre MLOps pour implémenter :
- Reconnaissance d’entité nommée :
- Classification de texte
- Génération de texte
- analyse de sentiments
- Traduction
- Réponses aux questions
- Résumé
- Détection d’expression
- Détection de la langue
- Balisage morphosyntaxique

Les simulations AI, l’apprentissage par renforcement profond et d’autres formes d’IA ne sont pas décrits dans cet article.

MLOps en tant que domaine de conception clé pour les charges de travail en IA

La planification et l’implémentation d’un MLOps et genAIOps sont un domaine de conception principal dans les charges de travail IA sur Azure. Pour obtenir un arrière-plan sur la raison pour laquelle ces charges de travail Machine Learning ont besoin d’opérations spécialisées, consultez MLOps et GenAIOps pour les charges de travail IA sur Azure dans Azure Well-Architected Framework.

Architecture

Le modèle architectural MLOps v2 a quatre principaux composants modulaires, ou phases, du cycle de vie MLOps :

Patrimoine de données
Administration et paramétrage
Développement du modèle, ou phase de boucle interne
Déploiement du modèle, ou phase de boucle externe

Les composants précédents, les connexions entre eux et les publics typiques impliqués sont standard dans tous les scénarios d’architectures MLOps v2. Les variations dans les détails de chaque composant dépendent du scénario.

L’architecture de base pour MLOps v2 pour le machine learning est le scénario de machine learning classique pour les données tabulaires. Les architectures CV et NLP s’appuient sur cette architecture de base et la modifient.

MLOps v2 couvre les architectures suivantes qui sont décrites dans cet article :

Architecture d’apprentissage automatique classique
Architecture CV de Machine Learning
Architecture de traitement du langage naturel Machine Learning

Architecture d’apprentissage automatique classique

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture d’apprentissage automatique classique

Patrimoine de données

Ce composant illustre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant du cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Une coche verte indique les sources de données et les cibles qui représentent les bonnes pratiques recommandées basées sur le cas d’utilisation du client.
Administration et paramétrage

Ce composant est la première étape du déploiement de la solution MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Par exemple, l’équipe d’infrastructure pourrait :
1. Créer des référentiels de code source de projet.
2. Utiliser Bicep ou Terraform pour créer des espaces de travail Machine Learning.
3. Créer ou modifier des ensembles de données et des ressources de calcul pour le développement et le déploiement de modèles.
4. Définir les utilisateurs de l’équipe de projet, leurs rôles et les contrôles d’accès à d’autres ressources.
5. Créer des pipelines CI/CD.
6. Créer des composants de surveillance pour collecter et créer des alertes pour les métriques de modèle et d’infrastructure.
Le public principal associé à cette phase est l’équipe d’infrastructure, mais une organisation pourrait également avoir des ingénieurs de données, des ingénieurs en machine learning ou des data scientists.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow de science des données itératif qui agit au sein d’un espace de travail Machine Learning dédié et sécurisé. Le diagramme précédent montre un workflow typique. Le processus commence par l’ingestion de données, passe par l’analyse exploratoire des données, l’expérimentation, le développement et l’évaluation du modèle, puis enregistre un modèle pour une utilisation en production. Ce composant modulaire est indépendant et adaptable au processus que votre équipe de science des données utilise pour développer des modèles.

Les personnages associés à cette phase sont les scientifiques des données et les ingénieurs d’apprentissage automatique.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines de CI déclenchés, soit automatiquement par une inscription de modèle, soit par approbation humaine, promeuvent le modèle et toutes ses dépendances vers la phase de déploiement.

Les personnages associés à cette phase sont généralement des ingénieurs d’apprentissage automatique.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.

Les personnages associés à cette phase sont principalement des ingénieurs d’apprentissage automatique.
Mise en lots et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que le ré-entraînement et le test du modèle candidat sur les données de production, les déploiements de test pour la performance du point de terminaison, les contrôles de qualité des données, les tests unitaires et les contrôles d’IA responsables pour les biais du modèle et des données. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle passe la phase de mise en scène et de test, les ingénieurs en machine learning peuvent utiliser une approbation gated human-in-the-loop pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Surveillance

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance du modèle et des données peut inclure la vérification des dérives du modèle et des données, la performance du modèle sur de nouvelles données et les problèmes d’IA responsable. La surveillance de l’infrastructure pourrait identifier une réponse lente du point de terminaison, une capacité de calcul inadéquate ou des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

En fonction des critères du modèle et des données, tels que les seuils de métriques ou les calendriers, des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre. Par exemple, un déclencheur pourrait ré-entraîner un modèle pour utiliser de nouvelles données de production, puis boucler le modèle vers la mise en scène et les tests pour une évaluation de préproduction. Ou un problème de modèle ou de données pourrait déclencher une action nécessitant un retour à la phase de développement du modèle où les data scientists peuvent enquêter sur le problème et potentiellement développer un nouveau modèle.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Des déclencheurs et des notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer les ressources de calcul et de réseau.

Architecture CV de Machine Learning

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture CV

L’architecture Machine Learning CV est basée sur l’architecture de machine learning classique, mais elle a des modifications spécifiques aux scénarios CV supervisés.

Patrimoine de données

Ce composant démontre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant dans le cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Les images pour les scénarios CV peuvent provenir de diverses sources de données. Pour une efficacité lors du développement et du déploiement de modèles CV avec Machine Learning, nous recommandons Azure Blob Storage et Azure Data Lake Storage.
Administration et paramétrage

Ce composant est la première étape du déploiement MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Pour les scénarios CV, l’administration et la configuration de l’environnement MLOps v2 sont en grande partie les mêmes que pour le machine learning classique mais incluent une étape supplémentaire. L’équipe d’infrastructure utilise la fonctionnalité d’étiquetage de Machine Learning ou un autre outil pour créer des projets d’étiquetage et d’annotation d’images.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow itératif de science des données effectué dans un espace de travail Machine Learning dédié et sécurisé. La principale différence entre ce workflow et le scénario de machine learning classique est que l’étiquetage et l’annotation des images sont un composant clé de cette boucle de développement.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines CI qui sont déclenchés automatiquement par l’enregistrement du modèle ou par une approbation gated human-in-the-loop promeuvent le modèle et toutes les autres dépendances du modèle à la phase de déploiement du modèle.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.
Mise en lots et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que des déploiements de test pour la performance du point de terminaison, des contrôles de qualité des données, des tests unitaires et des contrôles d’IA responsable pour les biais du modèle et des données. Pour les scénarios de vision par ordinateur (CV), les ingénieurs en machine learning n’ont pas besoin de réentraîner le modèle candidat sur les données de production en raison des contraintes de ressources et de temps. L’équipe de science des données peut plutôt utiliser les données de production pour le développement du modèle. Le modèle candidat enregistré à partir de la boucle de développement est évalué pour la production. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle passe la phase de mise en scène et de test, les ingénieurs en machine learning peuvent utiliser une approbation gated human-in-the-loop pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Surveillance

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance de modèle et de données peut inclure la vérification des performances du modèle sur de nouvelles images. La surveillance de l’infrastructure pourrait identifier une réponse lente du point de terminaison, une capacité de calcul inadéquate ou des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

La surveillance des données et du modèle et les phases d’événement et d’action de MLOps pour le traitement du langage naturel sont les principales différences par rapport au machine learning classique. Un réapprentissage automatisé n’est généralement pas effectué dans les scénarios CV quand une dégradation des performances du modèle sur de nouvelles images est détectée. Dans ce cas, un processus human-in-the-loop est nécessaire pour examiner et annoter les nouvelles données textuelles pour le modèle qui fonctionne mal. L’action suivante revient souvent à la boucle de développement du modèle pour mettre à jour le modèle avec les nouvelles images.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Les déclencheurs et les notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer l’environnement, le calcul et les ressources réseau.

Architecture de traitement du langage naturel Machine Learning

Téléchargez un fichier Visio de cette architecture.

Flux de travail pour l’architecture de traitement du langage naturel

L’architecture de traitement du langage naturel Machine Learning est basée sur l’architecture de machine learning classique, mais elle a quelques modifications spécifiques aux scénarios NLP.

Patrimoine de données

Ce composant démontre l’infrastructure de données de l’organisation et les sources de données potentielles et les cibles pour un projet de science des données. Les ingénieurs de données sont les principaux responsables de ce composant dans le cycle de vie MLOps v2. Les plateformes de données Azure dans ce diagramme ne sont pas exhaustives ou prescriptives. Une coche verte indique les sources et les cibles qui représentent les bonnes pratiques recommandées basées sur le cas d’utilisation du client.
Administration et paramétrage

Ce composant est la première étape du déploiement MLOps v2. Il consiste en toutes les tâches liées à la création et à la gestion des ressources et des rôles associés au projet. Pour les scénarios de traitement du langage naturel, l’administration et la configuration de l’environnement MLOps v2 sont en grande partie les mêmes que pour le machine learning classique, mais avec une étape supplémentaire : créer des projets d’étiquetage et d’annotation d’images en utilisant la fonctionnalité d’étiquetage de Machine Learning ou un autre outil.
Développement du modèle (phase de boucle interne)

La phase de boucle interne consiste en un workflow itératif de science des données effectué dans un espace de travail Machine Learning dédié et sécurisé. La boucle de développement de modèle NLP typique diffère du scénario de machine learning classique en ce que les étapes de développement typiques pour ce scénario incluent des annotateurs pour les phrases et la tokenisation, la normalisation et les embeddings pour les données textuelles.
Registres de Machine Learning

Après que l’équipe de science des données développe un modèle qu’elle peut déployer en production, elle enregistre le modèle dans le registre de l’espace de travail Machine Learning. Les pipelines CI qui sont déclenchés automatiquement par l’enregistrement du modèle ou par une approbation gated human-in-the-loop promeuvent le modèle et toutes les autres dépendances du modèle à la phase de déploiement du modèle.
Déploiement du modèle (phase de boucle externe)

Le déploiement du modèle, ou phase de boucle externe, consiste en une mise en scène et des tests en préproduction, un déploiement en production et une surveillance du modèle, des données et de l’infrastructure. Lorsque le modèle répond aux critères de l’organisation et du cas d’utilisation, les pipelines CD promeuvent le modèle et les actifs connexes à travers la production, la surveillance et le ré-entraînement potentiel.
Mise en lots et test

La phase de mise en scène et de test varie en fonction des pratiques des clients. Cette phase inclut généralement des opérations telles que le ré-entraînement et le test du modèle candidat sur les données de production, les déploiements de test pour la performance du point de terminaison, les contrôles de qualité des données, les tests unitaires et les contrôles d’IA responsables pour les biais du modèle et des données. Cette phase se déroule dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Déploiement de production

Après qu’un modèle passe la phase de mise en scène et de test, les ingénieurs en machine learning peuvent utiliser une approbation gated human-in-the-loop pour le promouvoir en production. Les options de déploiement du modèle incluent un point de terminaison batch géré pour les scénarios batch ou un point de terminaison en ligne géré ou un déploiement Kubernetes utilisant Azure Arc pour les scénarios en ligne, presque en temps réel. La production a lieu généralement dans un ou plusieurs espaces de travail Machine Learning dédiés et sécurisés.
Surveillance

Les ingénieurs en machine learning surveillent les composants en mise en scène, test et production pour collecter des métriques liées aux changements de performance du modèle, des données et de l’infrastructure. Ils peuvent utiliser ces métriques pour agir. La surveillance du modèle et des données peut inclure la vérification des dérives du modèle et des données, la performance du modèle sur de nouvelles données textuelles et les problèmes d’IA responsable. La surveillance de l’infrastructure pourrait identifier des problèmes tels qu’une réponse lente du point de terminaison, une capacité de calcul inadéquate et des problèmes de réseau.
Surveillance de modèle et de données : événements et actions

Comme pour l’architecture CV, la surveillance des données et du modèle et les phases d’événement et d’action de MLOps pour le traitement du langage naturel sont les principales différences par rapport au machine learning classique. Le ré-entraînement automatisé n’est généralement pas effectué dans les scénarios de traitement du langage naturel lorsque la dégradation des performances du modèle sur un nouveau texte est détectée. Dans ce cas, un processus human-in-the-loop est nécessaire pour examiner et annoter les nouvelles données textuelles pour le modèle qui fonctionne mal. Souvent, l’action suivante consiste à revenir à la boucle de développement de modèle pour mettre à jour le modèle avec les nouvelles données texte.
Surveillance d’infrastructure : événements et actions

Des déclencheurs et des notifications automatiques peuvent mettre en œuvre les actions appropriées à entreprendre en fonction des critères d’infrastructure, tels qu’un délai de réponse du point de terminaison ou une capacité de calcul insuffisante pour le déploiement. Les déclencheurs et les notifications automatiques pourraient déclencher un retour à la phase de configuration et d’administration où l’équipe d’infrastructure peut enquêter sur le problème et potentiellement reconfigurer les ressources de calcul et de réseau.

Composants

Machine Learning est un service cloud que vous pouvez utiliser pour entraîner, évaluer, déployer et gérer des modèles de machine learning à grande échelle.
Azure Pipelines est un système de build et de test basé sur Azure DevOps et utilisé pour les pipelines de build et de release. Azure Pipelines divise ces pipelines en étapes logiques appelées tâches.
GitHub est une plateforme d’hébergement de code pour le contrôle de version, la collaboration et les workflows CI/CD.
Azure Arc est une plateforme qui utilise Azure Resource Manager pour gérer les ressources Azure et les ressources sur site. Les ressources peuvent inclure des machines virtuelles, des clusters Kubernetes et des bases de données.
Kubernetes est un système open-source que vous pouvez utiliser pour automatiser le déploiement, la mise à l’échelle et la gestion des applications conteneurisées.
Azure Data Lake est un système de fichiers compatible Hadoop. Il offre un espace de noms hiérarchique intégré, ainsi que l’échelle et l’économie du Stockage Blob.
Azure Synapse Analytics est un service d’analytique illimité, qui réunit l’intégration de données, l’entreposage de données d’entreprise et des fonctionnalités analytiques pour le Big Data.
Azure Event Hubs est un service qui ingère des flux de données générés par des applications clientes. Il ingère ensuite et stocke les données en continu, ce qui préserve la séquence des événements reçus. Les clients peuvent se connecter aux points de terminaison du hub pour récupérer des messages pour le traitement. Cette architecture utilise l’intégration Data Lake Storage.

Autres considérations

Le modèle architectural MLOps v2 précédent comporte plusieurs composants critiques, y compris le contrôle d’accès basé sur les rôles (RBAC) qui s’aligne avec les parties prenantes de l’entreprise, une gestion efficace des packages et des mécanismes de surveillance robustes. Ces composants contribuent collectivement à la mise en œuvre et à la gestion réussies des workflows de machine learning.

RBAC basé sur les publics

Il est crucial de gérer l’accès aux données et aux ressources de machine learning. RBAC fournit un cadre robuste pour vous aider à gérer qui peut effectuer des actions spécifiques et accéder à des zones spécifiques au sein de votre solution. Concevez votre stratégie de segmentation d’identité pour s’aligner sur le cycle de vie des modèles de machine learning dans Machine Learning et les personas inclus dans le processus. Chaque public a un ensemble spécifique de responsabilités reflétées dans leurs rôles RBAC et leur appartenance à des groupes.

Exemple de publics

Pour prendre en charge une segmentation appropriée dans une charge de travail de machine learning, considérez les publics communs suivants qui informent la conception du groupe RBAC basé sur l’identité.

Data scientist et ingénieur en machine learning

Les data scientists et les ingénieurs en machine learning effectuent diverses activités de machine learning et de science des données tout au long du cycle de développement logiciel d’un projet. Leurs tâches incluent l’analyse exploratoire des données et le prétraitement des données. Les data scientists et les ingénieurs en machine learning sont responsables de l’entraînement, de l’évaluation et du déploiement des modèles. Les responsabilités de ces rôles incluent également les activités de dépannage pour les modèles de machine learning, les packages et les données. Ces tâches sont hors de portée de l’équipe de support technique de la plateforme.