DatasetConsumptionConfig Klas
Geeft aan hoe de gegevensset wordt geleverd aan een rekendoel.
Geeft aan hoe de gegevensset wordt geleverd aan het rekendoel.
- Overname
-
builtins.objectDatasetConsumptionConfig
Constructor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parameters
- name
- str
De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.
- dataset
- AbstractDataset of PipelineParameter of OutputDatasetConfig
De gegevensset die tijdens de uitvoering wordt gebruikt.
- mode
- str
Hiermee definieert u hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:
- 'direct': de gegevensset gebruiken als gegevensset.
- 'downloaden': download de gegevensset en gebruik de gegevensset als gedownload pad.
- 'koppelen': koppel de gegevensset en gebruik de gegevensset als koppelpad.
- 'hdfs': gebruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).
- path_on_compute
- str
Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens blijft behouden, maar we kunnen voorvoegsels toevoegen aan deze mapstructuur om conflicten te voorkomen. Gebruik tabular_dataset.to_path
om de structuur van de uitvoermap weer te geven.
- name
- str
De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.
- dataset
- Dataset of PipelineParameter of tuple(Workspace, str) of tuple(Workspace, str, str) of OutputDatasetConfig
De gegevensset die moet worden geleverd, als een gegevenssetobject, pijplijnparameter die een gegevensset, een tuple van (werkruimte, naam van gegevensset) of een tuple van (werkruimte, naam van gegevensset, versie van gegevensset) opneemt. Als er alleen een naam wordt opgegeven, gebruikt DatasetConsumptionConfig de nieuwste versie van de gegevensset.
- mode
- str
Hiermee definieert u hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:
- 'direct': de gegevensset gebruiken als gegevensset.
- 'downloaden': download de gegevensset en gebruik de gegevensset als gedownload pad.
- 'koppelen': koppel de gegevensset en gebruik de gegevensset als koppelpad.
- 'hdfs': gebruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).
- path_on_compute
- str
Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens blijft behouden, maar we kunnen voorvoegsels toevoegen aan deze mapstructuur om conflicten te voorkomen. U wordt aangeraden tabular_dataset.to_path aan te roepen om de structuur van de uitvoermap te bekijken.
Methoden
as_download |
Stel de modus in om te downloaden. In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
|
as_hdfs |
Stel de modus in op hdfs. In de verzonden synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar een lokaal pad op het rekendoel. Het pad hdfs kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.
|
as_mount |
Stel de modus in op koppelen. In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
|
as_download
Stel de modus in om te downloaden.
In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parameters
- path_on_compute
- str
Het doelpad op de berekening om de gegevens beschikbaar te maken op.
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is de downloadlocatie het pad van het enkele gedownloade bestand. Anders is de downloadlocatie het pad naar de bijbehorende map voor alle gedownloade bestanden.
Als path_on_compute begint met een /, wordt dit beschouwd als een absoluut pad. Als het niet begint met een /, wordt het behandeld als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak is gemachtigd om naar die map te schrijven.
as_hdfs
Stel de modus in op hdfs.
In de verzonden synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar een lokaal pad op het rekendoel. Het pad hdfs kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het hdfs-pad het pad van het ene bestand. Anders is het pad naar hdfs het pad van de bijbehorende map voor alle gekoppelde bestanden.
as_mount
Stel de modus in op koppelen.
In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parameters
- path_on_compute
- str
Het doelpad op de berekening om de gegevens beschikbaar te maken op.
Opmerkingen
Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het koppelpunt het pad van het gekoppelde bestand. Anders is het koppelpunt het pad van de bijbehorende map voor alle gekoppelde bestanden.
Als path_on_compute begint met een /, wordt dit beschouwd als een absoluut pad. Als het niet begint met een /, wordt het behandeld als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak is gemachtigd om naar die map te schrijven.
Kenmerken
name
Naam van de invoer.
Retouren
Naam van de invoer.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor