Partager via


data Paquet

Contient des modules qui prennent en charge la représentation des données pour les magasins de données et les jeux de données dans Azure Machine Learning.

Ce package contient des fonctionnalités de base qui prennent en charge les classes Datastore et Dataset dans le package core. Les objets de magasin de données contiennent les informations de connexion aux services de stockage Azure auxquelles il est facile de faire référence par le nom sans avoir à les utiliser directement dans les scripts ou de les y coder en dur. Le magasin de données prend en charge un certain nombre de services différents représentés par les classes de ce package, notamment AzureBlobDatastore, AzureFileDatastore et AzureDataLakeDatastore. Pour obtenir la liste complète des services de stockage pris en charge, consultez la classe Datastore.

Si un magasin de données fait office de conteneur pour vos fichiers de données, un jeu de données peut être vu comme une référence ou un pointeur vers des données spécifiques qui se trouvent dans votre magasin de données. Les types de jeux de données suivants sont pris en charge :

  • TabularDataset représente les données sous forme de tableau en analysant le fichier ou la liste de fichiers fournis.

  • FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques.

Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données, consultez https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.

Modules

abstract_dataset

Contient la classe de base abstraite pour les jeux de données dans Azure Machine Learning.

abstract_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans les services de stockage Azure.

azure_data_lake_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Data Lake Storage.

azure_my_sql_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Database pour MySQL.

azure_postgre_sql_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Database pour PostgreSQL.

azure_sql_database_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans la base de données Azure SQL.

azure_storage_datastore

Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Azure Blob et le stockage Azure File.

constants

Constantes utilisées dans le package azureml.data. À usage interne uniquement

context_managers

Contient des fonctionnalités pour gérer le contexte de données des magasins de données et des jeux de données. À usage interne uniquement

data_reference

Contient des fonctionnalités qui définissent la manière de créer des références aux données dans des magasins de données.

datacache

Contient les fonctionnalités pour la gestion du magasin de mise en cache des données et de mise en cache des données dans Azure Machine Learning.

datacache_client

À usage interne uniquement

datacache_consumption_config

Contient les fonctionnalités de configuration de la consommation de DataCache.

datacache_singularity_settings

Contient les objets nécessaires pour la représentation des paramètres De singularité Datacache.

datapath

Contient les fonctionnalités permettant de créer des références aux données dans les magasins de données.

Ce module contient la classe DataPath, qui représente l’emplacement des données, et la classe DataPathComputeBinding, qui représente la façon dont les données sont rendues disponibles sur les cibles de calcul.

dataset_action_run

Contient des fonctionnalités permettant de gérer l’exécution d’actions de jeu de données.

Ce module fournit des méthodes pratiques pour créer des actions de DataSet et obtenir leurs résultats une fois l’opération terminée.

dataset_consumption_config

Contient les fonctionnalités de configuration de la consommation des jeux de données.

dataset_definition

Contient des fonctionnalités permettant de gérer la définition des jeux de données et leurs opérations.

Notes

Ce module est déprécié. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

dataset_error_handling

Contient des exceptions pour la gestion des erreurs du jeu de données dans Azure Machine Learning.

dataset_factory

Contient des fonctionnalités permettant de créer des jeux de données pour Azure Machine Learning.

dataset_profile

Classe pour la collecte de statistiques récapitulatives sur les données produites par un flux de données.

Les fonctionnalités de ce module incluent la collecte d’informations relatives à l’exécution du profil, qu’il s’agisse d’un profil obsolète ou non.

dataset_profile_run

Contient la configuration pour superviser l’exécution du profil de jeu de données dans Azure Machine Learning.

Les fonctionnalités de ce module incluent la gestion et la surveillance de l’exécution du profil de jeu de données associé à un objet d’expérience et à un ID d’exécution individuel.

dataset_profile_run_config

Contient la configuration pour générer des statistiques résumées des jeux de données dans Azure Machine Learning.

Les fonctionnalités de ce module incluent des méthodes pour l’envoi de profils locaux ou distants et pour la visualisation du résultat de l’exécution du profil envoyé.

dataset_snapshot

Contient des fonctionnalités permettant de gérer les opérations d’instantané du jeu de données.

Notes

Ce module est déprécié. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contient les valeurs d’énumération utilisées avec Dataset.

datastore_client

À usage interne uniquement

dbfs_datastore

Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Databricks File Sytem (DBFS).

file_dataset

Contient les fonctionnalités permettant de référencer un ou plusieurs fichiers dans les magasins de données ou les URL publiques.

Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichier, consultez https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion à un cluster HDFS.

output_dataset_config

Contient les configurations qui spécifient la façon dont les sorties d’un travail doivent être chargées et promues en jeu de données.

Pour plus d’informations, consultez l’article comment spécifier des sorties.

sql_data_reference

Contient des fonctionnalités pour la création des références à des données dans des magasins de données qui enregistrent des informations de connexion dans des bases de données SQL.

stored_procedure_parameter

Contient les fonctionnalités permettant de créer un paramètre à passer à une procédure stockée SQL.

tabular_dataset

Contient des fonctionnalités permettant de représenter des données dans un format tabulaire en analysant le fichier ou la liste de fichiers fournis.

Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType

Configure les types de données de colonne pour un jeu de données créé dans Azure Machine Learning.

Les méthodes DataType sont utilisées dans les méthodes from_* de la classe TabularDatasetFactory, qui servent à créer des objets TabularDataset.

DatacacheStore

Notes

Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Représente une abstraction de stockage sur un compte de stockage Azure Machine Learning.

Les objets DatacacheStore sont attachés aux espaces de travail. Ils permettent de stocker les informations relatives à la solution de mise en cache des données sous-jacente. Actuellement, seule la solution BLOB partitionnée est prise en charge. Les objets DatacacheStore définissent différents magasins de stockage d’objets BLOB qui peuvent être utilisés pour la mise en cache.

Utilisez cette classe pour effectuer des opérations de gestion, notamment pour inscrire, répertorier, récupérer et mettre à jour des objets DatacacheStore. Les objets DatacacheStore de chaque service sont créés à l’aide des méthodes register* de cette classe.

Obtient un objet DatacacheStore par nom. Cet appel effectue une demande au service datacache.

FileDataset

Représente une collection de références de fichier dans les magasins de données ou les URL publiques à utiliser dans Azure Machine Learning.

Un FileDataset définit une série d’opérations immuables et évaluées tardivement pour charger des données à partir de la source de données dans des flux de fichiers. Les données ne sont pas chargées à partir de la source tant que le FileDataset n’est pas invité à fournir les données.

Un FileDataset est créé à l’aide de la méthode from_files de la classe FileDatasetFactory.

Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichier, consultez https://aka.ms/filedataset-samplenotebook.

Initialisez l’objet FileDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de la FileDatasetFactory classe .

HDFSOutputDatasetConfig

Représente le mode de sortie vers un chemin d’accès HDFS et est promu en tant que FileDataset.

Initialisez un HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Notes

Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Indique comment lier la sortie d’une exécution et la promouvoir en tant qu’objet FileDataset.

LinkFileOutputDatasetConfig vous permet de lier un jeu de données de fichier en tant que jeu de données de sortie.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un Objet LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Notes

Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Indique comment lier la sortie d’une exécution et la promouvoir en tant qu’objet TabularDataset.

LinkTabularOutputDatasetConfig vous permet de lier un jeu de données tabulaires de fichier en tant que jeu de données de sortie


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialiser un LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Représente comment copier la sortie d’une exécution et la promouvoir en tant que FileDataset.

L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie, puis de promotion de celle-ci vers un jeu de données tabulaires et de son enregistrement sous le nom de foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un OutputFileDatasetConfig.

L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie en promouvant ensuite la sortie vers un jeu de données tabulaire et son enregistrement sous le nom de foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Représente le jeu de données tabulaire à utiliser dans Azure Machine Learning.

Un TabularDataset définit une série d’opérations immuables et évaluées tardivement pour charger les données de la source de données dans une représentation tabulaire. Les données ne sont pas chargées à partir de la source tant que le TabularDataset n’est pas invité à fournir les données.

Le TabularDataset est créé à l’aide de méthodes telles que from_delimited_files de la classe TabularDatasetFactory.

Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook.

Initialiser un objet TabularDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de la TabularDatasetFactory classe .