DatasetConsumptionConfig Classe
Représente comment fournir le jeu de données à une cible de calcul.
Représente comment remettre le jeu de données à la cible de calcul.
- Héritage
-
builtins.objectDatasetConsumptionConfig
Constructeur
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Paramètres
- name
- str
Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données.
- dataset
- AbstractDataset ou PipelineParameter ou OutputDatasetConfig
Jeu de données qui sera consommé dans l’exécution.
- mode
- str
Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :
- « direct » : utilise le jeu de données en tant que jeu de données.
- « télécharger » : télécharge le jeu de données et l’utilise en tant que chemin d’accès téléchargé.
- « monter » : monte le jeu de données et l’utilise en tant que chemin de montage.
- « hdfs » : utilise le jeu de données à partir du chemin d’accès hdfs résolu (actuellement pris en charge uniquement sur le calcul SynapseSpark).
- path_on_compute
- str
Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Utilisez tabular_dataset.to_path
pour afficher la structure des dossiers de sortie.
- name
- str
Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données.
- dataset
- Dataset ou PipelineParameter ou tuple(Workspace, str) ou tuple(Workspace, str, str) ou OutputDatasetConfig
Jeu de données à remettre, sous la forme d’un objet Dataset, paramètre de pipeline qui ingère un jeu de données, un tuple de (espace de travail, nom du jeu de données) ou un tuple de (espace de travail, nom du jeu de données, version du jeu de données). Si seul un nom est fourni, datasetConsumptionConfig utilise la dernière version du jeu de données.
- mode
- str
Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :
- « direct » : utilise le jeu de données en tant que jeu de données.
- « télécharger » : télécharge le jeu de données et l’utilise en tant que chemin d’accès téléchargé.
- « monter » : monte le jeu de données et l’utilise en tant que chemin de montage.
- « hdfs » : utilise le jeu de données à partir du chemin d’accès hdfs résolu (actuellement pris en charge uniquement sur le calcul SynapseSpark).
- path_on_compute
- str
Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Nous vous recommandons d’appeler tabular_dataset.to_path pour voir la structure du dossier de sortie.
Méthodes
as_download |
Définissez le mode sur « télécharger ». Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
|
as_hdfs |
Définissez le mode sur « hdfs ». Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.
|
as_mount |
Définissez le mode sur « monter ». Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
|
as_download
Définissez le mode sur « télécharger ».
Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Paramètres
- path_on_compute
- str
Chemin d’accès cible sur le calcul auquel rendre les données disponibles.
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, l’emplacement de téléchargement est le chemin d’accès du fichier téléchargé unique. Sinon, l’emplacement de téléchargement sera le chemin d’accès du dossier englobant tous les fichiers téléchargés.
Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.
as_hdfs
Définissez le mode sur « hdfs ».
Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le chemin hdfs est le chemin d’accès du fichier unique. Dans le cas contraire, le chemin hdfs sera le chemin d’accès du dossier englobant tous les fichiers montés.
as_mount
Définissez le mode sur « monter ».
Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Paramètres
- path_on_compute
- str
Chemin d’accès cible sur le calcul auquel rendre les données disponibles.
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le point de montage est le chemin d’accès du fichier monté unique. Dans le cas contraire, le point de montage sera le chemin d’accès du dossier englobant tous les fichiers montés.
Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.
Attributs
name
Nom de l’entrée.
Retours
Nom de l’entrée.
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour