Udostępnij za pośrednictwem


DatasetConsumptionConfig Klasa

Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.

Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.

Dziedziczenie
builtins.object
DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametry

Nazwa Opis
name
Wymagane
str

Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.

dataset
Wymagane

Zestaw danych, który zostanie użyty w przebiegu.

mode
str

Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:

  1. "direct": używanie zestawu danych jako zestawu danych.
  2. "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki.
  3. "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji.
  4. "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark).
Domyślna wartość: direct
path_on_compute
str

Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Użyj polecenia tabular_dataset.to_path , aby wyświetlić strukturę folderów wyjściowych.

Domyślna wartość: None
name
Wymagane
str

Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.

dataset
Wymagane

Zestaw danych, który ma zostać dostarczony jako obiekt Dataset, parametr potoku, który pozysuje zestaw danych, krotkę (obszar roboczy, nazwę zestawu danych) lub krotkę (obszar roboczy, nazwa zestawu danych, wersja zestawu danych). Jeśli zostanie podana tylko nazwa, konfiguracja DatasetConsumptionConfig będzie używać najnowszej wersji zestawu danych.

mode
Wymagane
str

Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:

  1. "direct": używanie zestawu danych jako zestawu danych.
  2. "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki.
  3. "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji.
  4. "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark).
path_on_compute
Wymagane
str

Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Zalecamy wywołanie metody tabular_dataset.to_path , aby wyświetlić strukturę folderów wyjściowych.

Metody

as_download

Ustaw tryb pobierania.

W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Ustaw tryb na hdfs.

W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Ustaw tryb instalacji.

W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Ustaw tryb pobierania.

W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametry

Nazwa Opis
path_on_compute
str

Ścieżka docelowa w obliczeniach w celu udostępnienia danych.

Domyślna wartość: None

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku lokalizacja pobierania będzie ścieżką pojedynczego pobranego pliku. W przeciwnym razie lokalizacja pobierania będzie ścieżką otaczającego folderu dla wszystkich pobranych plików.

Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.

as_hdfs

Ustaw tryb na hdfs.

W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku ścieżka hdfs będzie ścieżką pojedynczego pliku. W przeciwnym razie ścieżka hdfs będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.

as_mount

Ustaw tryb instalacji.

W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametry

Nazwa Opis
path_on_compute
str

Ścieżka docelowa w obliczeniach w celu udostępnienia danych.

Domyślna wartość: None

Uwagi

Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku punkt instalacji będzie ścieżką pojedynczego zainstalowanego pliku. W przeciwnym razie punkt instalacji będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.

Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.

Atrybuty

name

Nazwa danych wejściowych.

Zwraca

Typ Opis

Nazwa danych wejściowych.