DatasetConsumptionConfig Klas

Referentie

Geeft aan hoe de gegevensset wordt geleverd aan een rekendoel.

Geeft aan hoe de gegevensset wordt geleverd aan het rekendoel.

Overname: builtins.object

DatasetConsumptionConfig

Constructor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parameters

name: str

Vereist

De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.

dataset: AbstractDataset of PipelineParameter of OutputDatasetConfig

Vereist

De gegevensset die tijdens de uitvoering wordt gebruikt.

mode: str

standaardwaarde: direct

Hiermee definieert u hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:

'direct': de gegevensset gebruiken als gegevensset.
'downloaden': download de gegevensset en gebruik de gegevensset als gedownload pad.
'koppelen': koppel de gegevensset en gebruik de gegevensset als koppelpad.
'hdfs': gebruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).

path_on_compute: str

standaardwaarde: None

Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens blijft behouden, maar we kunnen voorvoegsels toevoegen aan deze mapstructuur om conflicten te voorkomen. Gebruik tabular_dataset.to_path om de structuur van de uitvoermap weer te geven.

name: str

Vereist

De naam van de gegevensset in de uitvoering, die kan afwijken van de geregistreerde naam. De naam wordt geregistreerd als omgevingsvariabele en kan worden gebruikt in het gegevensvlak.

dataset: Dataset of PipelineParameter of tuple(Workspace, str) of tuple(Workspace, str, str) of OutputDatasetConfig

Vereist

De gegevensset die moet worden geleverd, als een gegevenssetobject, pijplijnparameter die een gegevensset, een tuple van (werkruimte, naam van gegevensset) of een tuple van (werkruimte, naam van gegevensset, versie van gegevensset) opneemt. Als er alleen een naam wordt opgegeven, gebruikt DatasetConsumptionConfig de nieuwste versie van de gegevensset.

mode: str

Vereist

Hiermee definieert u hoe de gegevensset moet worden geleverd aan het rekendoel. Er zijn drie modi:

'direct': de gegevensset gebruiken als gegevensset.
'downloaden': download de gegevensset en gebruik de gegevensset als gedownload pad.
'koppelen': koppel de gegevensset en gebruik de gegevensset als koppelpad.
'hdfs': gebruik de gegevensset van het opgeloste hdfs-pad (momenteel alleen ondersteund op SynapseSpark compute).

path_on_compute: str

Vereist

Het doelpad op de berekening om de gegevens beschikbaar te maken op. De mapstructuur van de brongegevens blijft behouden, maar we kunnen voorvoegsels toevoegen aan deze mapstructuur om conflicten te voorkomen. U wordt aangeraden tabular_dataset.to_path aan te roepen om de structuur van de uitvoermap te bekijken.

Methoden

as_download

Stel de modus in om te downloaden.

In de verzonden uitvoering worden bestanden in de gegevensset gedownload naar het lokale pad op het rekendoel. De downloadlocatie kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Stel de modus in op hdfs.

In de verzonden synapse-uitvoering worden bestanden in de gegevenssets geconverteerd naar een lokaal pad op het rekendoel. Het pad hdfs kan worden opgehaald uit argumentwaarden en de omgevingsvariabelen van het besturingssysteem.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Stel de modus in op koppelen.

In de verzonden uitvoering worden bestanden in de gegevenssets gekoppeld aan het lokale pad op het rekendoel. Het koppelpunt kan worden opgehaald uit argumentwaarden en het input_datasets veld van de uitvoeringscontext.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Stel de modus in om te downloaden.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parameters

path_on_compute: str

standaardwaarde: None

Het doelpad op de berekening om de gegevens beschikbaar te maken op.

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is de downloadlocatie het pad van het enkele gedownloade bestand. Anders is de downloadlocatie het pad naar de bijbehorende map voor alle gedownloade bestanden.

Als path_on_compute begint met een /, wordt dit beschouwd als een absoluut pad. Als het niet begint met een /, wordt het behandeld als een relatief pad ten opzichte van de werkmap. Als u een absoluut pad hebt opgegeven, moet u ervoor zorgen dat de taak is gemachtigd om naar die map te schrijven.

as_hdfs

Stel de modus in op hdfs.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het hdfs-pad het pad van het ene bestand. Anders is het pad naar hdfs het pad van de bijbehorende map voor alle gekoppelde bestanden.

as_mount

Stel de modus in op koppelen.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parameters

path_on_compute: str

standaardwaarde: None

Het doelpad op de berekening om de gegevens beschikbaar te maken op.

Opmerkingen

Wanneer de gegevensset wordt gemaakt op basis van het pad van één bestand, is het koppelpunt het pad van het gekoppelde bestand. Anders is het koppelpunt het pad van de bijbehorende map voor alle gekoppelde bestanden.

DatasetConsumptionConfig Klas

Constructor

Parameters

Methoden

as_download

Parameters

Opmerkingen

as_hdfs

Opmerkingen

as_mount

Parameters

Opmerkingen

Kenmerken

name

Retouren

Feedback

Feedback

Aanvullende resources