Données dans Azure Machine Learning v1

Article
05/23/2023

S’APPLIQUE À :extension Azure CLI ml v1

Azure Machine Learning facilite la connexion à vos données dans le cloud. Il fournit une couche d’abstraction sur le service de stockage sous-jacent, ce qui vous permet d’accéder de manière sécurisée à vos données et de les utiliser sans avoir à écrire du code propre à votre type de stockage. Azure Machine Learning propose également les fonctionnalités de données suivantes :

Interopérabilité avec les DataFrames Pandas et Spark
Gestion de versions et suivi de la traçabilité des données
Étiquetage des données
Supervision de la dérive des données

Workflow de données

Quand vous êtes prêt à utiliser les données dans votre solution de stockage cloud, nous vous recommandons de recourir au workflow de livraison de données suivant. Ce workflow suppose que vous disposez d’un compte de stockage Azure et de données dans un service de stockage cloud au sein d’Azure.

Créez un magasin de données Azure Machine Learning pour stocker les informations de connexion à votre stockage Azure.
À partir de ce magasin de données, créez un jeu de données Azure Machine Learning pour pointer vers un ou plusieurs fichiers spécifiques dans votre stockage sous-jacent.
Pour utiliser ce jeu de données dans votre expérience machine learning, vous pouvez
- Le monter sur la cible de calcul de votre expérience pour l’entraînement du modèle.
  
  OR
- Le consommer directement dans des solutions Azure Machine Learning, telles que des exécutions d’expériences de machine learning automatisé, des pipelines de Machine Learning ou le Concepteur Azure Machine Learning.
Créez des moniteurs de jeux de données pour le jeu de données de sortie de votre modèle afin de détecter la dérive de données.
Si une dérive de données est détectée, mettez à jour votre jeu de données d’entrée et renouvelez l’entraînement de votre modèle en conséquence.

Le diagramme suivant fournit une démonstration visuelle de ce workflow recommandé.

Diagramme représentant le service Stockage Azure, avec transmission vers un magasin de données, puis vers un jeu de données.

Se connecter au stockage avec des magasins de données

Les magasins de données Azure Machine Learning conservent de manière sécurisée les informations de connexion à votre stockage de données sur Azure. Vous n’avez donc pas à les coder dans vos scripts. Inscrivez et créez un magasin de données pour vous connecter facilement à votre compte de stockage, et accéder aux données de votre service de stockage sous-jacent.

Services de stockage cloud pris en charge dans Azure qui peuvent être enregistrés en tant que magasins de données :

Conteneur d’objets blob Azure
Partage de fichiers Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database pour PostgreSQL
Système de fichiers Databricks
Azure Database pour MySQL

Conseil

Vous pouvez créer des magasins de données avec une authentification basée sur les informations d’identification pour accéder aux services de stockage, comme un principal de service ou un jeton de signature d’accès partagé (SAS). Ces informations d’identification sont accessibles aux utilisateurs qui disposent de l’accès Lecteur pour l’espace de travail.

Si cela pose problème, créez un magasin de données qui utilise l’accès aux données en fonction de l’identité pour vous connecter aux services de stockage (préversion) .

Référencer des données dans le stockage avec des jeux de données

Les jeux de données Azure Machine Learning ne sont pas des copies de vos données. En créant un jeu de données, vous créez une référence aux données dans son service de stockage, ainsi qu'une copie de ses métadonnées.

Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant :

Vous n’engagez aucun coût de stockage supplémentaire.
Vous ne risquez pas de modifier involontairement vos sources de données d’origine.
Vous améliorez les performances des workflows de ML.

Pour interagir avec vos données dans le stockage, créez un jeu de données afin d’empaqueter vos données dans un objet consommable pour les tâches de machine learning. Inscrivez le jeu de données dans votre espace de travail pour le partager et le réutiliser dans différentes expériences sans avoir à gérer la complexité liée à l’ingestion des données.

Les jeux de données peuvent être créés à partir de fichiers locaux, d’URL publiques, d’Azure Open Datasets ou de services de stockage Azure par le biais de magasins de données.

Il existe 2 types de datasets :

Un FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques. Si vos données sont déjà nettoyées et prêtes à l’emploi dans des expériences de formation, vous pouvez télécharger ou monter des fichiers référencés par FileDatasets dans votre cible de calcul.
Un TabularDataset représente les données sous forme de tableau en analysant le fichier ou la liste de fichiers fournis. Vous pouvez charger un TabularDataset dans une trame de données Pandas ou Spark afin d’effectuer une autre manipulation et un nettoyage. Pour obtenir la liste complète des formats de données à partir desquels vous pouvez créer des TabularDatasets, consultez la classe TabularDatasetFactory.

Vous trouverez des fonctionnalités supplémentaires des jeux de données dans la documentation suivante :

Effectuez le suivi et la gestion des versions de traçabilité des jeux de données.
Supervisez votre jeu de données pour faciliter la détection de la dérive de données.

Travailler avec vos données

Avec les jeux de données, vous pouvez effectuer un certain nombre de tâches de Machine Learning grâce à une intégration fluide avec les fonctionnalités Azure Machine Learning.

Créez un projet d’étiquetage de données.
Entraînez des modèles Machine Learning :
Accédez aux jeux de données pour le scoring avec l’inférence par lot dans des pipelines machine learning.
Configurez un moniteur de jeu de données pour la détection de la dérive de données.

Étiqueter des données avec des projets d’étiquetage des données

L’étiquetage des grandes quantités de données a souvent été un casse-tête dans les projets de Machine Learning. Ceux avec un composant de vision par ordinateur, tels que la classification d’images ou la détection d’objets, nécessitent généralement des milliers d’images et d’étiquettes correspondantes.

Azure Machine Learning vous fournit un emplacement central pour créer, gérer et superviser les projets d’étiquetage. Les projets d’étiquetage aident à coordonner les données, les étiquettes et les membres de l’équipe, ce qui vous permet de gérer plus efficacement les tâches d’étiquetage. Les tâches actuellement prises en charge sont la classification d’images, à plusieurs étiquettes ou multiclasse, et l’identification des objets à l’aide de zones délimitées.

Créez un projet d’étiquetage d’image ou un projet d’étiquetage de texte et générez un jeu de données à utiliser dans des expériences Machine Learning.

Surveiller les performances du modèle grâce à la dérive des données

Dans le contexte de l’apprentissage automatique, la dérive de données est la modification des données d’entrée du modèle qui entraîne une dégradation des performances du modèle. C’est l’une des principales raisons pour lesquelles la précision du modèle se dégrade au fil du temps, de sorte que la surveillance de la dérive des données permet de détecter les problèmes de performance du modèle.

Pour en savoir plus sur la détection et l’alerte en cas de dérive de données dans un jeu de données, consultez l’article Créer un moniteur de jeu de données.

Étapes suivantes

Créez un jeu de données dans Azure Machine Learning Studio ou avec le SDK Python en suivant ces étapes.
Essayez des exemples d’entraînement de jeux de données avec nos exemples de notebooks.