DatasetConsumptionConfig Klasa
Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.
Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.
- Dziedziczenie
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametry
Nazwa | Opis |
---|---|
name
Wymagane
|
Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych. |
dataset
Wymagane
|
Zestaw danych, który zostanie użyty w przebiegu. |
mode
|
Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:
Domyślna wartość: direct
|
path_on_compute
|
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Użyj polecenia Domyślna wartość: None
|
name
Wymagane
|
Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych. |
dataset
Wymagane
|
Dataset lub
PipelineParameter lub
tuple(Workspace, str) lub
tuple(Workspace, str, str) lub
OutputDatasetConfig
Zestaw danych, który ma zostać dostarczony jako obiekt Dataset, parametr potoku, który pozysuje zestaw danych, krotkę (obszar roboczy, nazwę zestawu danych) lub krotkę (obszar roboczy, nazwa zestawu danych, wersja zestawu danych). Jeśli zostanie podana tylko nazwa, konfiguracja DatasetConsumptionConfig będzie używać najnowszej wersji zestawu danych. |
mode
Wymagane
|
Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:
|
path_on_compute
Wymagane
|
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Zalecamy wywołanie metody tabular_dataset.to_path , aby wyświetlić strukturę folderów wyjściowych. |
Metody
as_download |
Ustaw tryb pobierania. W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.
|
as_hdfs |
Ustaw tryb na hdfs. W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.
|
as_mount |
Ustaw tryb instalacji. W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.
|
as_download
Ustaw tryb pobierania.
W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametry
Nazwa | Opis |
---|---|
path_on_compute
|
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Domyślna wartość: None
|
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku lokalizacja pobierania będzie ścieżką pojedynczego pobranego pliku. W przeciwnym razie lokalizacja pobierania będzie ścieżką otaczającego folderu dla wszystkich pobranych plików.
Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.
as_hdfs
Ustaw tryb na hdfs.
W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku ścieżka hdfs będzie ścieżką pojedynczego pliku. W przeciwnym razie ścieżka hdfs będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.
as_mount
Ustaw tryb instalacji.
W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametry
Nazwa | Opis |
---|---|
path_on_compute
|
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Domyślna wartość: None
|
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku punkt instalacji będzie ścieżką pojedynczego zainstalowanego pliku. W przeciwnym razie punkt instalacji będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.
Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.
Atrybuty
name
Nazwa danych wejściowych.
Zwraca
Typ | Opis |
---|---|
Nazwa danych wejściowych. |