DatasetConsumptionConfig Třída

Reference

Představuje způsob doručení datové sady do cílového výpočetního objektu.

Dědičnost: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametry

Name	Description
name Vyžadováno	str Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat.
dataset Vyžadováno	AbstractDataset nebo PipelineParameter nebo OutputDatasetConfig Datová sada, která se bude spotřebovávat při spuštění.
mode	str Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy: 'direct': Spotřebujte datovou sadu jako datovou sadu. 'download': stáhněte datovou sadu a použijte ji jako staženou cestu. 'mount': připojte datovou sadu a datovou sadu spotřebujte jako cestu pro připojení. 'hdfs': využívá datovou sadu z přeložené cesty hdfs (aktuálně se podporuje jenom ve výpočetních prostředcích SynapseSpark). Default value: direct
path_on_compute	str Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Slouží `tabular_dataset.to_path` k zobrazení struktury výstupních složek. Default value: None
name Vyžadováno	str Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat.
dataset Vyžadováno	Dataset nebo PipelineParameter nebo tuple(Workspace, str) nebo tuple(Workspace, str, str) nebo OutputDatasetConfig Datová sada, která se má doručit, jako objekt Dataset, parametr kanálu, který ingestuje datovou sadu, řazenou kolekci členů (pracovní prostor, název datové sady) nebo řazenou kolekci členů (pracovní prostor, název datové sady, verze datové sady). Pokud zadáte jenom název, bude DatasetConsumptionConfig používat nejnovější verzi datové sady.
mode Vyžadováno	str Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy: 'direct': Spotřebujte datovou sadu jako datovou sadu. 'download': stáhněte datovou sadu a použijte ji jako staženou cestu. 'mount': připojte datovou sadu a datovou sadu spotřebujte jako cestu pro připojení. 'hdfs': využívá datovou sadu z přeložené cesty hdfs (aktuálně se podporuje jenom ve výpočetních prostředcích SynapseSpark).
path_on_compute Vyžadováno	str Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Pokud chcete zobrazit strukturu výstupních složek, doporučujeme volat tabular_dataset.to_path .

Metody

as_download

Nastavte režim pro stahování.

V odeslaném spuštění se soubory v datové sadě stáhnou do místní cesty ve výpočetním cíli. Umístění ke stažení lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Nastavte režim na hdfs.

Při odeslaném spuštění synapse se soubory v datových sadách převedou na místní cestu ve výpočetním cíli. Cestu hdfs je možné načíst z hodnot argumentů a proměnných prostředí operačního systému.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Nastavte režim pro připojení.

V odeslaném spuštění se soubory v datových sadách připojí k místní cestě v cílovém výpočetním objektu. Přípojný bod lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Nastavte režim pro stahování.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametry

Name	Description
path_on_compute	str Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Default value: None

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude umístěním pro stažení cesta k jednomu staženého souboru. Jinak bude umístěním ke stažení cesta k ohraničující složce pro všechny stažené soubory.

Pokud path_on_compute začíná na /, bude považován za absolutní cestu. Pokud nezačíná na /, bude považován za relativní cestu vzhledem k pracovnímu adresáři. Pokud jste zadali absolutní cestu, ujistěte se, že má úloha oprávnění k zápisu do daného adresáře.

as_hdfs

Nastavte režim na hdfs.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude cesta hdfs cesta k jednomu souboru. Jinak bude cesta hdfs cesta k ohraničující složce pro všechny připojené soubory.

as_mount

Nastavte režim pro připojení.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametry

Name	Description
path_on_compute	str Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Default value: None

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude přípojným bodem cesta k jednomu připojenému souboru. Jinak bude přípojný bod cesta k ohraničující složce pro všechny připojené soubory.

Atributy

name

Název vstupu.

Návraty

Typ	Description
	Název vstupu.

Sdílet prostřednictvím

DatasetConsumptionConfig Třída

Konstruktor

Parametry

Metody

as_download

Parametry

Poznámky

as_hdfs

Poznámky

as_mount

Parametry

Poznámky

Atributy

name

Návraty

Váš názor

Další materiály