data Paquet
Contient des modules qui prennent en charge la représentation des données pour les magasins de données et les jeux de données dans Azure Machine Learning.
Ce package contient des fonctionnalités de base qui prennent en charge les classes Datastore et Dataset dans le package core. Les objets de magasin de données contiennent les informations de connexion aux services de stockage Azure auxquelles il est facile de faire référence par le nom sans avoir à les utiliser directement dans les scripts ou de les y coder en dur. Le magasin de données prend en charge un certain nombre de services différents représentés par les classes de ce package, notamment AzureBlobDatastore, AzureFileDatastore et AzureDataLakeDatastore. Pour obtenir la liste complète des services de stockage pris en charge, consultez la classe Datastore.
Si un magasin de données fait office de conteneur pour vos fichiers de données, un jeu de données peut être vu comme une référence ou un pointeur vers des données spécifiques qui se trouvent dans votre magasin de données. Les types de jeux de données suivants sont pris en charge :
TabularDataset représente les données sous forme de tableau en analysant le fichier ou la liste de fichiers fournis.
FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques.
Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données, consultez https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.
Modules
abstract_dataset |
Contient la classe de base abstraite pour les jeux de données dans Azure Machine Learning. |
abstract_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans les services de stockage Azure. |
azure_data_lake_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Data Lake Storage. |
azure_my_sql_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Database pour MySQL. |
azure_postgre_sql_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans Azure Database pour PostgreSQL. |
azure_sql_database_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion dans la base de données Azure SQL. |
azure_storage_datastore |
Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Azure Blob et le stockage Azure File. |
constants |
Constantes utilisées dans le package azureml.data. À usage interne uniquement |
context_managers |
Contient des fonctionnalités pour gérer le contexte de données des magasins de données et des jeux de données. À usage interne uniquement |
data_reference |
Contient des fonctionnalités qui définissent la manière de créer des références aux données dans des magasins de données. |
datacache |
Contient les fonctionnalités pour la gestion du magasin de mise en cache des données et de mise en cache des données dans Azure Machine Learning. |
datacache_client |
À usage interne uniquement |
datacache_consumption_config |
Contient les fonctionnalités de configuration de la consommation de DataCache. |
datacache_singularity_settings |
Contient les objets nécessaires pour la représentation des paramètres De singularité Datacache. |
datapath |
Contient les fonctionnalités permettant de créer des références aux données dans les magasins de données. Ce module contient la classe DataPath, qui représente l’emplacement des données, et la classe DataPathComputeBinding, qui représente la façon dont les données sont rendues disponibles sur les cibles de calcul. |
dataset_action_run |
Contient des fonctionnalités permettant de gérer l’exécution d’actions de jeu de données. Ce module fournit des méthodes pratiques pour créer des actions de DataSet et obtenir leurs résultats une fois l’opération terminée. |
dataset_consumption_config |
Contient les fonctionnalités de configuration de la consommation des jeux de données. |
dataset_definition |
Contient des fonctionnalités permettant de gérer la définition des jeux de données et leurs opérations. Notes Ce module est déprécié. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Contient des exceptions pour la gestion des erreurs du jeu de données dans Azure Machine Learning. |
dataset_factory |
Contient des fonctionnalités permettant de créer des jeux de données pour Azure Machine Learning. |
dataset_profile |
Classe pour la collecte de statistiques récapitulatives sur les données produites par un flux de données. Les fonctionnalités de ce module incluent la collecte d’informations relatives à l’exécution du profil, qu’il s’agisse d’un profil obsolète ou non. |
dataset_profile_run |
Contient la configuration pour superviser l’exécution du profil de jeu de données dans Azure Machine Learning. Les fonctionnalités de ce module incluent la gestion et la surveillance de l’exécution du profil de jeu de données associé à un objet d’expérience et à un ID d’exécution individuel. |
dataset_profile_run_config |
Contient la configuration pour générer des statistiques résumées des jeux de données dans Azure Machine Learning. Les fonctionnalités de ce module incluent des méthodes pour l’envoi de profils locaux ou distants et pour la visualisation du résultat de l’exécution du profil envoyé. |
dataset_snapshot |
Contient des fonctionnalités permettant de gérer les opérations d’instantané du jeu de données. Notes Ce module est déprécié. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Contient les valeurs d’énumération utilisées avec Dataset. |
datastore_client |
À usage interne uniquement |
dbfs_datastore |
Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Databricks File Sytem (DBFS). |
file_dataset |
Contient les fonctionnalités permettant de référencer un ou plusieurs fichiers dans les magasins de données ou les URL publiques. Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichier, consultez https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Contient les fonctionnalités de base pour les magasins de données qui enregistrent les informations de connexion à un cluster HDFS. |
output_dataset_config |
Contient les configurations qui spécifient la façon dont les sorties d’un travail doivent être chargées et promues en jeu de données. Pour plus d’informations, consultez l’article comment spécifier des sorties. |
sql_data_reference |
Contient des fonctionnalités pour la création des références à des données dans des magasins de données qui enregistrent des informations de connexion dans des bases de données SQL. |
stored_procedure_parameter |
Contient les fonctionnalités permettant de créer un paramètre à passer à une procédure stockée SQL. |
tabular_dataset |
Contient des fonctionnalités permettant de représenter des données dans un format tabulaire en analysant le fichier ou la liste de fichiers fournis. Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook. |
Classes
DataType |
Configure les types de données de colonne pour un jeu de données créé dans Azure Machine Learning. Les méthodes DataType sont utilisées dans les méthodes |
DatacacheStore |
Notes Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Représente une abstraction de stockage sur un compte de stockage Azure Machine Learning. Les objets DatacacheStore sont attachés aux espaces de travail. Ils permettent de stocker les informations relatives à la solution de mise en cache des données sous-jacente. Actuellement, seule la solution BLOB partitionnée est prise en charge. Les objets DatacacheStore définissent différents magasins de stockage d’objets BLOB qui peuvent être utilisés pour la mise en cache. Utilisez cette classe pour effectuer des opérations de gestion, notamment pour inscrire, répertorier, récupérer et mettre à jour des objets DatacacheStore.
Les objets DatacacheStore de chaque service sont créés à l’aide des méthodes Obtient un objet DatacacheStore par nom. Cet appel effectue une demande au service datacache. |
FileDataset |
Représente une collection de références de fichier dans les magasins de données ou les URL publiques à utiliser dans Azure Machine Learning. Un FileDataset définit une série d’opérations immuables et évaluées tardivement pour charger des données à partir de la source de données dans des flux de fichiers. Les données ne sont pas chargées à partir de la source tant que le FileDataset n’est pas invité à fournir les données. Un FileDataset est créé à l’aide de la méthode from_files de la classe FileDatasetFactory. Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichier, consultez https://aka.ms/filedataset-samplenotebook. Initialisez l’objet FileDataset. Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de la FileDatasetFactory classe . |
HDFSOutputDatasetConfig |
Représente le mode de sortie vers un chemin d’accès HDFS et est promu en tant que FileDataset. Initialisez un HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Notes Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Indique comment lier la sortie d’une exécution et la promouvoir en tant qu’objet FileDataset. LinkFileOutputDatasetConfig vous permet de lier un jeu de données de fichier en tant que jeu de données de sortie.
Initialisez un Objet LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Notes Il s’agit d’une classe expérimentale qui peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Indique comment lier la sortie d’une exécution et la promouvoir en tant qu’objet TabularDataset. LinkTabularOutputDatasetConfig vous permet de lier un jeu de données tabulaires de fichier en tant que jeu de données de sortie
Initialiser un LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Représente comment copier la sortie d’une exécution et la promouvoir en tant que FileDataset. L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local. Exemple de non-transmission d’arguments :
Exemple de création d’une sortie, puis de promotion de celle-ci vers un jeu de données tabulaires et de son enregistrement sous le nom de foo :
Initialisez un OutputFileDatasetConfig. L’objet OutputFileDatasetConfig vous permet de spécifier comment vous souhaitez qu’un chemin d’accès local particulier de la cible de calcul soit chargé vers la destination spécifiée. Si aucun argument n’est transmis au constructeur, nous générons automatiquement un nom, une destination et un chemin d’accès local. Exemple de non-transmission d’arguments :
Exemple de création d’une sortie en promouvant ensuite la sortie vers un jeu de données tabulaire et son enregistrement sous le nom de foo :
|
TabularDataset |
Représente le jeu de données tabulaire à utiliser dans Azure Machine Learning. Un TabularDataset définit une série d’opérations immuables et évaluées tardivement pour charger les données de la source de données dans une représentation tabulaire. Les données ne sont pas chargées à partir de la source tant que le TabularDataset n’est pas invité à fournir les données. Le TabularDataset est créé à l’aide de méthodes telles que from_delimited_files de la classe TabularDatasetFactory. Pour plus d’informations, consultez l’article Ajouter & inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook. Initialiser un objet TabularDataset. Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de la TabularDatasetFactory classe . |