Sdílet prostřednictvím


DatasetConsumptionConfig Třída

Představuje způsob doručení datové sady do cílového výpočetního objektu.

Představuje způsob doručení datové sady do cílového výpočetního objektu.

Dědičnost
builtins.object
DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametry

Name Description
name
Vyžadováno
str

Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat.

dataset
Vyžadováno

Datová sada, která se bude spotřebovávat při spuštění.

mode
str

Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy:

  1. 'direct': Spotřebujte datovou sadu jako datovou sadu.
  2. 'download': stáhněte datovou sadu a použijte ji jako staženou cestu.
  3. 'mount': připojte datovou sadu a datovou sadu spotřebujte jako cestu pro připojení.
  4. 'hdfs': využívá datovou sadu z přeložené cesty hdfs (aktuálně se podporuje jenom ve výpočetních prostředcích SynapseSpark).
Default value: direct
path_on_compute
str

Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Slouží tabular_dataset.to_path k zobrazení struktury výstupních složek.

Default value: None
name
Vyžadováno
str

Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat.

dataset
Vyžadováno

Datová sada, která se má doručit, jako objekt Dataset, parametr kanálu, který ingestuje datovou sadu, řazenou kolekci členů (pracovní prostor, název datové sady) nebo řazenou kolekci členů (pracovní prostor, název datové sady, verze datové sady). Pokud zadáte jenom název, bude DatasetConsumptionConfig používat nejnovější verzi datové sady.

mode
Vyžadováno
str

Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy:

  1. 'direct': Spotřebujte datovou sadu jako datovou sadu.
  2. 'download': stáhněte datovou sadu a použijte ji jako staženou cestu.
  3. 'mount': připojte datovou sadu a datovou sadu spotřebujte jako cestu pro připojení.
  4. 'hdfs': využívá datovou sadu z přeložené cesty hdfs (aktuálně se podporuje jenom ve výpočetních prostředcích SynapseSpark).
path_on_compute
Vyžadováno
str

Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Pokud chcete zobrazit strukturu výstupních složek, doporučujeme volat tabular_dataset.to_path .

Metody

as_download

Nastavte režim pro stahování.

V odeslaném spuštění se soubory v datové sadě stáhnou do místní cesty ve výpočetním cíli. Umístění ke stažení lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Nastavte režim na hdfs.

Při odeslaném spuštění synapse se soubory v datových sadách převedou na místní cestu ve výpočetním cíli. Cestu hdfs je možné načíst z hodnot argumentů a proměnných prostředí operačního systému.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Nastavte režim pro připojení.

V odeslaném spuštění se soubory v datových sadách připojí k místní cestě v cílovém výpočetním objektu. Přípojný bod lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Nastavte režim pro stahování.

V odeslaném spuštění se soubory v datové sadě stáhnou do místní cesty ve výpočetním cíli. Umístění ke stažení lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametry

Name Description
path_on_compute
str

Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit.

Default value: None

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude umístěním pro stažení cesta k jednomu staženého souboru. Jinak bude umístěním ke stažení cesta k ohraničující složce pro všechny stažené soubory.

Pokud path_on_compute začíná na /, bude považován za absolutní cestu. Pokud nezačíná na /, bude považován za relativní cestu vzhledem k pracovnímu adresáři. Pokud jste zadali absolutní cestu, ujistěte se, že má úloha oprávnění k zápisu do daného adresáře.

as_hdfs

Nastavte režim na hdfs.

Při odeslaném spuštění synapse se soubory v datových sadách převedou na místní cestu ve výpočetním cíli. Cestu hdfs je možné načíst z hodnot argumentů a proměnných prostředí operačního systému.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude cesta hdfs cesta k jednomu souboru. Jinak bude cesta hdfs cesta k ohraničující složce pro všechny připojené soubory.

as_mount

Nastavte režim pro připojení.

V odeslaném spuštění se soubory v datových sadách připojí k místní cestě v cílovém výpočetním objektu. Přípojný bod lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametry

Name Description
path_on_compute
str

Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit.

Default value: None

Poznámky

Při vytvoření datové sady z cesty k jednomu souboru bude přípojným bodem cesta k jednomu připojenému souboru. Jinak bude přípojný bod cesta k ohraničující složce pro všechny připojené soubory.

Pokud path_on_compute začíná na /, bude považován za absolutní cestu. Pokud nezačíná na /, bude považován za relativní cestu vzhledem k pracovnímu adresáři. Pokud jste zadali absolutní cestu, ujistěte se, že má úloha oprávnění k zápisu do daného adresáře.

Atributy

name

Název vstupu.

Návraty

Typ Description

Název vstupu.