Concepts de données dans Azure Machine Learning

Azure Machine Learning vous permet de récupérer des données depuis un ordinateur local ou un stockage cloud existant. Cet article décrit les concepts clés des données Azure Machine Learning.

Magasin de données

Un magasin de données Azure Machine Learning sert de référence à un compte Stockage Azure existant. Un magasin de données Azure Machine Learning offre les avantages suivants :

  • API commune et facile à utiliser qui permet d’interagir avec différents types de stockage (Blob/Fichier/ADLS).
  • Découverte plus facile des magasins de données utiles dans les opérations d’équipe.
  • Pour l’accès basé sur les informations d’identification (principal de service/SAS/clé), le magasin de données Azure Machine Learning sécurise les informations de connexion. Il n’est ainsi pas nécessaire de placer ces informations dans vos scripts.

Quand vous créez un magasin de données avec un compte Stockage Azure existant, vous pouvez choisir l’une des deux méthodes d’authentification :

  • Basée sur les informations d’identification : authentifiez l’accès aux données avec un principal de service, un jeton SAS (signature d’accès partagé) ou une clé de compte. Les utilisateurs disposant d’un accès Lecteur à l’espace de travail peuvent accéder aux informations d’identification.
  • Basée sur l’identité : utilisez votre identité managée ou identité Microsoft Entra pour authentifier l’accès aux données.

Le tableau suivant présente un résumé des services de stockage cloud Azure qu’un magasin de données Azure Machine Learning peut créer. En outre, le tableau résume les types d’authentification permettant d’accéder à ces services :

Service de stockage pris en charge Authentification basée sur les informations d’identification Authentification basée sur l’identité
Conteneur d’objets blob Azure
Partage de fichiers Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Pour plus d’informations sur les magasins de données, consultez Créer des magasins de données.

Magasins de données par défaut

Chaque espace de travail Azure Machine Learning dispose d’un compte de stockage par défaut (compte de stockage Azure) contenant les magasins de données suivants :

Conseil

Pour trouver l’ID de votre espace de travail, accédez à l’espace de travail dans le Portail Azure. Développez Paramètres, puis sélectionnez Propriétés. L’ID de l’espace de travail s’affiche.

Nom du magasin de données Type de stockage de données Nom du stockage de données Description
workspaceblobstore Conteneur d’objets blob azureml-blobstore-{workspace-id} Permet de stocker les chargements de données, les instantanés de code de travail et le cache de données de pipeline.
workspaceworkingdirectory Partage de fichiers code-{GUID} Permet de stocker les données de notebooks, instances de calcul et flux d’invite.
workspacefilestore Partage de fichiers azureml-filestore-{workspace-id} Autre conteneur pour le chargement de données.
workspaceartifactstore Conteneur d’objets blob azureml Stockage pour des ressources telles que les métriques, modèles et composants.

les types de données ;

Un URI (emplacement de stockage) peut référencer un fichier, un dossier ou une table de données. Une définition d’entrée et de sortie de travail Machine Learning nécessite l’un des trois types de données suivants :

Type API V2 API V1 Scénarios canoniques Différence entre les API V2/V1
File
Référencer un seul fichier
uri_file FileDataset Lire/écrire un seul fichier : le fichier peut avoir le format de votre choix. Nouveau type pour les API V2. Dans les API V1, les fichiers étaient toujours mappés à un dossier sur le système de fichiers de la cible de calcul. Ce mappage nécessitait un os.path.join. Dans les API V2, le fichier unique est mappé. De cette manière, vous pouvez faire référence à cet emplacement dans votre code.
Folder
Référencer un seul dossier
uri_folder FileDataset Vous devez lire/écrire un dossier de fichiers Parquet/CSV dans Pandas/Spark.

Deep Learning avec des images, du texte, des fichiers audio et vidéo qui se trouvent dans un dossier.
Dans les API V1, FileDataset avait un moteur associé pouvant prendre un échantillon de fichiers dans un dossier. Dans les API V2, un dossier est un simple mappage au système de fichiers de la cible de calcul.
Table
Référencer une table de données
mltable TabularDataset Vous avez un schéma complexe qui fait l’objet de modifications fréquentes ou vous avez besoin d’un sous-ensemble de données tabulaires de grande taille.

AutoML avec des tables.
Dans les API V1, le back-end Azure Machine Learning stockait le blueprint de matérialisation des données. Par conséquent, TabularDataset fonctionnait uniquement si vous disposiez d’un espace de travail Azure Machine Learning. mltable stocke le blueprint de matérialisation des données dans votre stockage. Cet emplacement de stockage signifie que vous pouvez l’utiliser déconnecté d’AzureML, par exemple localement ou sur site. Dans les API V2, il est plus facile de passer de travaux locaux à des travaux à distance. Pour plus d’informations, consultez Utilisation des tables dans Azure Machine Learning.

URI

Un URI (Uniform Resource Identifier) représente un emplacement de stockage sur votre ordinateur local, le Stockage Azure ou un emplacement http(s) disponible publiquement. Voici des exemples d’URI pour différentes options de stockage :

Emplacement de stockage Exemples d’URI
Magasin de données Azure Machine Learning azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Ordinateur local ./home/username/data/my_data
Serveur http(s) public https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Stockage d'objets blob wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Un travail Azure Machine Learning mappe les URI au système de fichiers de la cible de calcul. Ce mappage signifie que dans une commande qui consomme ou produit un identificateur URI, celui-ci fonctionne comme un fichier ou un dossier. L’URI utilise l’authentification basée sur l’identité pour se connecter aux services de stockage, avec votre Microsoft Entra ID (par défaut) ou votre identité managée. Les URI du magasin de données Azure Machine Learning peuvent appliquer l’authentification basée sur l’identité ou basée sur les informations d’identification (par exemple un principal de service, un jeton SAS, une clé de compte) sans exposition des secrets.

Un identificateur URI peut servir d’entrée ou de sortie à un travail Azure Machine Learning. Il peut être mappé au système de fichiers de la cible de calcul avec l’un de ces quatre modes différents :

  • Montage en lecture seule (ro_mount) : l’URI représente un emplacement de stockage monté sur le système de fichiers de la cible de calcul. L’emplacement de données monté prend en charge exclusivement la sortie en lecture seule.
  • Montage en lecture-écriture (rw_mount) : l’URI représente un emplacement de stockage monté sur le système de fichiers de la cible de calcul. L’emplacement de données monté prend en charge à la fois la sortie de lecture et les écritures de données.
  • Téléchargement (download) : l’URI représente un emplacement de stockage contenant des données téléchargées sur le système de fichiers de la cible de calcul.
  • Chargement (upload) : l’ensemble des données écrites dans un emplacement de cible de calcul est chargé dans l’emplacement de stockage représenté par l’URI.

En outre, vous pouvez transmettre l’URI en tant que chaîne d’entrée de travail grâce au mode direct. Ce tableau récapitule les modes disponibles pouvant être combinés pour les entrées et les sorties :

Travail
Entrée ou Sortie
upload download ro_mount rw_mount direct
Entrée
Sortie

Pour plus d’informations, consultez Accéder aux données dans une tâche.

Capacité de runtime de données

Azure Machine Learning utilise sont runtime de données propre à l’une des trois fins suivantes :

  • pour les montages/chargements/téléchargements
  • pour mapper les URI de stockage au système de fichiers cible de calcul
  • pour matérialiser des données tabulaires dans pandas/spark avec des tables Azure Machine Learning (mltable)

Le runtime de données Azure Machine Learning est conçu pour une grande vitesse et une grande efficacité des tâches d’apprentissage automatique. Il offre les principaux avantages suivants :

  • Architecture du langage Rust. Le langage Rust est connu pour sa grande vitesse et son efficacité d’utilisation de la mémoire.
  • Léger. Le runtime de données Azure Machine Learning n’a aucune dépendance par rapport à d’autres technologies (par exemple JVM), le runtime s’installe donc rapidement sur les cibles de calcul.
  • Chargement de données multiprocessus (parallèle).
  • Les prérécupérations de données fonctionnent en tant que tâche en arrière-plan sur le ou les processeurs afin d’améliorer l’utilisation du ou des GPU dans les opérations de Deep Learning.
  • Authentification fluide au stockage cloud.

Ressource de données

Une ressource de données Azure Machine Learning ressemble aux signets de navigateur web (favoris). Au lieu de mémoriser de longs chemins de stockage (URI) qui pointent vers vos données les plus fréquemment utilisées, vous pouvez créer une ressource de données, puis y accéder avec un nom convivial.

En créant une ressource de données, vous créez également une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Étant donné que les données restent à leur emplacement existant, aucun coût de stockage supplémentaire n’est appliqué et l’intégrité de la source de données est assurée. Vous pouvez créer des ressources de données à partir de magasins de données Azure Machine Learning, d’un Stockage Azure, d’URL publiques ou de fichiers locaux.

Pour plus d’informations sur les ressources de données, consultez Créer des ressources de données.

Étapes suivantes