DatasetConsumptionConfig Klasa

Odwołanie

Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.

Dziedziczenie: builtins.object

DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametry

Nazwa	Opis
name Wymagane	str Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.
dataset Wymagane	AbstractDataset lub PipelineParameter lub OutputDatasetConfig Zestaw danych, który zostanie użyty w przebiegu.
mode	str Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby: "direct": używanie zestawu danych jako zestawu danych. "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki. "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji. "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark). Domyślna wartość: direct
path_on_compute	str Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Użyj polecenia `tabular_dataset.to_path` , aby wyświetlić strukturę folderów wyjściowych. Domyślna wartość: None
name Wymagane	str Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.
dataset Wymagane	Dataset lub PipelineParameter lub tuple(Workspace, str) lub tuple(Workspace, str, str) lub OutputDatasetConfig Zestaw danych, który ma zostać dostarczony jako obiekt Dataset, parametr potoku, który pozysuje zestaw danych, krotkę (obszar roboczy, nazwę zestawu danych) lub krotkę (obszar roboczy, nazwa zestawu danych, wersja zestawu danych). Jeśli zostanie podana tylko nazwa, konfiguracja DatasetConsumptionConfig będzie używać najnowszej wersji zestawu danych.
mode Wymagane	str Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby: "direct": używanie zestawu danych jako zestawu danych. "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki. "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji. "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark).
path_on_compute Wymagane	str Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Zalecamy wywołanie metody tabular_dataset.to_path , aby wyświetlić strukturę folderów wyjściowych.

Metody

as_download

Ustaw tryb pobierania.

W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Ustaw tryb na hdfs.

W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Ustaw tryb instalacji.

W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Ustaw tryb pobierania.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parametry

Nazwa	Opis
path_on_compute	str Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Domyślna wartość: None

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku lokalizacja pobierania będzie ścieżką pojedynczego pobranego pliku. W przeciwnym razie lokalizacja pobierania będzie ścieżką otaczającego folderu dla wszystkich pobranych plików.

Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.

as_hdfs

Ustaw tryb na hdfs.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku ścieżka hdfs będzie ścieżką pojedynczego pliku. W przeciwnym razie ścieżka hdfs będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.

as_mount

Ustaw tryb instalacji.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parametry

Nazwa	Opis
path_on_compute	str Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Domyślna wartość: None

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku punkt instalacji będzie ścieżką pojedynczego zainstalowanego pliku. W przeciwnym razie punkt instalacji będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.

Atrybuty

name

Nazwa danych wejściowych.

Zwraca

Typ	Opis
	Nazwa danych wejściowych.

Udostępnij za pośrednictwem

DatasetConsumptionConfig Klasa

Konstruktor

Parametry

Metody

as_download

Parametry

Uwagi

as_hdfs

Uwagi

as_mount

Parametry

Uwagi

Atrybuty

name

Zwraca

Opinia

Dodatkowe zasoby