DatasetConsumptionConfig Třída
Představuje způsob doručení datové sady do cílového výpočetního objektu.
Představuje způsob doručení datové sady do cílového výpočetního objektu.
- Dědičnost
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat. |
dataset
Vyžadováno
|
Datová sada, která se bude spotřebovávat při spuštění. |
mode
|
Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy:
Default value: direct
|
path_on_compute
|
Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Slouží Default value: None
|
name
Vyžadováno
|
Název datové sady v běhu, který se může lišit od registrovaného názvu. Název se zaregistruje jako proměnná prostředí a bude možné ho použít v rovině dat. |
dataset
Vyžadováno
|
Dataset nebo
PipelineParameter nebo
tuple(Workspace, str) nebo
tuple(Workspace, str, str) nebo
OutputDatasetConfig
Datová sada, která se má doručit, jako objekt Dataset, parametr kanálu, který ingestuje datovou sadu, řazenou kolekci členů (pracovní prostor, název datové sady) nebo řazenou kolekci členů (pracovní prostor, název datové sady, verze datové sady). Pokud zadáte jenom název, bude DatasetConsumptionConfig používat nejnovější verzi datové sady. |
mode
Vyžadováno
|
Definuje způsob doručení datové sady do cílového výpočetního objektu. Existují tři režimy:
|
path_on_compute
Vyžadováno
|
Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Struktura složek zdrojových dat bude zachována, ale můžeme do této struktury složek přidat předpony, abychom se vyhnuli kolizi. Pokud chcete zobrazit strukturu výstupních složek, doporučujeme volat tabular_dataset.to_path . |
Metody
as_download |
Nastavte režim pro stahování. V odeslaném spuštění se soubory v datové sadě stáhnou do místní cesty ve výpočetním cíli. Umístění ke stažení lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.
|
as_hdfs |
Nastavte režim na hdfs. Při odeslaném spuštění synapse se soubory v datových sadách převedou na místní cestu ve výpočetním cíli. Cestu hdfs je možné načíst z hodnot argumentů a proměnných prostředí operačního systému.
|
as_mount |
Nastavte režim pro připojení. V odeslaném spuštění se soubory v datových sadách připojí k místní cestě v cílovém výpočetním objektu. Přípojný bod lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.
|
as_download
Nastavte režim pro stahování.
V odeslaném spuštění se soubory v datové sadě stáhnou do místní cesty ve výpočetním cíli. Umístění ke stažení lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametry
Name | Description |
---|---|
path_on_compute
|
Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Default value: None
|
Poznámky
Při vytvoření datové sady z cesty k jednomu souboru bude umístěním pro stažení cesta k jednomu staženého souboru. Jinak bude umístěním ke stažení cesta k ohraničující složce pro všechny stažené soubory.
Pokud path_on_compute začíná na /, bude považován za absolutní cestu. Pokud nezačíná na /, bude považován za relativní cestu vzhledem k pracovnímu adresáři. Pokud jste zadali absolutní cestu, ujistěte se, že má úloha oprávnění k zápisu do daného adresáře.
as_hdfs
Nastavte režim na hdfs.
Při odeslaném spuštění synapse se soubory v datových sadách převedou na místní cestu ve výpočetním cíli. Cestu hdfs je možné načíst z hodnot argumentů a proměnných prostředí operačního systému.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Poznámky
Při vytvoření datové sady z cesty k jednomu souboru bude cesta hdfs cesta k jednomu souboru. Jinak bude cesta hdfs cesta k ohraničující složce pro všechny připojené soubory.
as_mount
Nastavte režim pro připojení.
V odeslaném spuštění se soubory v datových sadách připojí k místní cestě v cílovém výpočetním objektu. Přípojný bod lze načíst z hodnot argumentů a pole input_datasets kontextu spuštění.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametry
Name | Description |
---|---|
path_on_compute
|
Cílová cesta na výpočetním prostředí, na které chcete data zpřístupnit. Default value: None
|
Poznámky
Při vytvoření datové sady z cesty k jednomu souboru bude přípojným bodem cesta k jednomu připojenému souboru. Jinak bude přípojný bod cesta k ohraničující složce pro všechny připojené soubory.
Pokud path_on_compute začíná na /, bude považován za absolutní cestu. Pokud nezačíná na /, bude považován za relativní cestu vzhledem k pracovnímu adresáři. Pokud jste zadali absolutní cestu, ujistěte se, že má úloha oprávnění k zápisu do daného adresáře.
Atributy
name
Název vstupu.
Návraty
Typ | Description |
---|---|
Název vstupu. |