Données dans Azure Machine Learning v1

S’APPLIQUE À :Extension Azure CLI ml v1

S’APPLIQUE À :Kit de développement logiciel (SDK) Azure Machine Learning v1 pour Python

Important

Cet article fournit des informations sur l’utilisation du Kit de développement logiciel (SDK) Azure Machine Learning v1. Sdk v1 est déconseillé depuis le 31 mars 2025. La prise en charge prendra fin le 30 juin 2026. Vous pouvez installer et utiliser le Kit de développement logiciel (SDK) v1 jusqu’à cette date. Vos flux de travail existants utilisant le Kit de développement logiciel (SDK) v1 continueront à fonctionner après la date de fin de support. Toutefois, elles peuvent être exposées à des risques de sécurité ou à des modifications disruptives en cas de changements architecturaux du produit.

Nous vous recommandons de passer au SDK v2 avant le 30 juin 2026. Pour plus d’informations sur le SDK v2, consultez Qu’est-ce qu’Azure Machine Learning CLI et le SDK Python v2 ? et la référence du SDK v2.

Azure Machine Learning facilite la connexion à vos données dans le cloud. Il fournit une couche d’abstraction sur le service de stockage sous-jacent, ce qui vous permet d’accéder de manière sécurisée à vos données et de les utiliser sans avoir à écrire du code propre à votre type de stockage. Azure Machine Learning propose également ces fonctionnalités de données :

  • Interopérabilité avec les DataFrames Pandas et Spark
  • Gestion de versions et suivi de la traçabilité des données
  • Étiquetage des données
  • Supervision de la dérive des données

Workflow de données

Pour utiliser les données dans votre solution de stockage cloud, utilisez ce flux de travail de remise de données. Le flux de travail suppose que vous disposez d’un compte de stockage Azure et de données dans un service de stockage cloud Azure.

  1. Créez un magasin de données Azure Machine Learning pour stocker les informations de connexion à votre stockage Azure.

  2. À partir de cette source de données, créez un jeu de données Azure Machine Learning pour pointer vers un fichier ou des fichiers spécifiques dans votre stockage sous-jacent.

  3. Pour utiliser ce jeu de données dans votre expérience de Machine Learning, vous pouvez

    • Monter le jeu de données sur la cible de calcul de votre expérience, pour l’entraînement du modèle

      OU

    • Consommer le jeu de données directement dans des solutions Azure Machine Learning, par exemple, des exécutions d’expérience de Machine Learning automatisé (ML automatisé), des pipelines de Machine Learning ou le Concepteur Azure Machine Learning.

  4. Créez des moniteurs de jeu de données pour votre jeu de données de sortie de modèle pour détecter la dérive des données.

  5. Pour la dérive de données détectée, mettez à jour votre jeu de données d’entrée et réentraînez votre modèle en conséquence.

Cette capture d’écran montre le workflow recommandé :

Capture d’écran illustrant le service de stockage Azure, qui circule dans un magasin de données, puis dans un jeu de données.

Se connecter au stockage avec des magasins de données

Les magasins de données Azure Machine Learning hébergent de manière sécurisée les informations de connexion de votre stockage de données sur Azure et vous n’avez pas besoin de les placer dans vos scripts. Pour plus d’informations sur la connexion à un compte de stockage et l’accès aux données dans votre service de stockage sous-jacent, consultez Inscrire et créer un magasin de données.

Vous pouvez inscrire ces services de stockage cloud Azure pris en charge en tant que magasins de données :

  • Conteneur d’objets blob Azure
  • Partage de fichiers Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database pour PostgreSQL
  • Système de fichiers Databricks
  • Azure Database pour MySQL

Conseil

Vous pouvez créer des magasins de données avec l’authentification basée sur les informations d’identification pour accéder aux services de stockage, tels qu’un principal de service ou un jeton de signature d’accès partagé (SAP). Les utilisateurs avec un accès Lecteur sur l’espace de travail peuvent accéder à ces informations d’identification.

S’il s’agit d’un problème, consultez créer un magasin de données qui utilise l’accès aux données basé sur l’identité pour plus d’informations sur les connexions aux services de stockage.

Référencer des données dans le stockage avec des jeux de données

Les jeux de données Azure Machine Learning ne sont pas des copies de vos données. Le simple fait de créer un jeu de données crée une référence aux données dans son service de stockage, ainsi qu'une copie de ses métadonnées.

Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant, vous

  • Vous n’engagez aucun coût de stockage supplémentaire
  • Vous ne risquez pas de changer involontairement vos sources de données d’origine
  • Vous améliorez les performances des workflows de ML

Pour interagir avec vos données dans le stockage, créez un jeu de données afin d’empaqueter vos données dans un objet consommable pour les tâches de Machine Learning. Inscrivez le jeu de données dans votre espace de travail pour le partager et le réutiliser dans différentes expériences sans la complexité liée à l’ingestion des données.

Vous pouvez créer des jeux de données à partir de fichiers locaux, d’URL publiques, d’Azure Open Datasets ou de services de stockage Azure via des magasins de données.

Il existe deux types de jeux de données :

  • Un FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques. Si vos données sont déjà nettoyées et prêtes pour les expériences d’entraînement, vous pouvez télécharger ou monter des fichiers référencés par FileDatasets sur votre cible de calcul.

  • Un TabularDataset représente des données dans un format tabulaire en analysant le fichier ou la liste de fichiers fournis. Vous pouvez charger un TabularDataset dans une trame de données Pandas ou Spark afin d’effectuer une autre manipulation et un nettoyage. Pour obtenir la liste complète des formats de données à partir desquels vous pouvez créer des tabularDatasets, visitez la classe TabularDatasetFactory.

Ces ressources offrent plus d’informations sur les fonctionnalités du jeu de données :

Travailler avec vos données

Avec les jeux de données, vous pouvez effectuer des tâches de Machine Learning grâce à une intégration fluide aux fonctionnalités Azure Machine Learning.

Étiqueter des données avec des projets d’étiquetage des données

L’étiquetage de grands volumes de données dans les projets Machine Learning peut devenir un défi. Les projets qui impliquent un composant de vision par ordinateur, comme la classification d’images ou la détection d’objets, nécessitent souvent des milliers d’images et d’étiquettes correspondantes.

Azure Machine Learning fournit un emplacement central pour créer, gérer et monitorer les projets d’étiquetage. Les projets d’étiquetage aident à coordonner les données, les étiquettes et les membres d’équipe, pour vous permettre de gérer plus efficacement les tâches d’étiquetage. Actuellement, les tâches prises en charge impliquent la classification d’images, multi-étiquettes ou multiclasses et l’identification d’objets à l’aide de zones délimitées.

Créez un projet d’étiquetage d’image ou un projet d’étiquetage de texte et générez un jeu de données à utiliser dans des expériences Machine Learning.

Surveiller les performances du modèle grâce à la dérive des données

Dans le contexte du Machine Learning, la dérive de données implique un changement des données d’entrée du modèle, ce qui entraîne une détérioration des performances du modèle. C’est l’une des principales raisons pour lesquelles l’exactitude du modèle se détériore au fil du temps, et le monitoring de dérive des données permet de détecter les problèmes de performance du modèle.

Pour plus d’informations, consultez Créer un moniteur de jeu de données pour savoir comment détecter une dérive de données sur les nouvelles données d’un jeu de données, et comment alerter.

Étapes suivantes