DatasetConsumptionConfig Klasa
Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.
Przedstawia sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego.
- Dziedziczenie
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametry
- name
- str
Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.
- dataset
- AbstractDataset lub PipelineParameter lub OutputDatasetConfig
Zestaw danych, który zostanie użyty w przebiegu.
- mode
- str
Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:
- "direct": używanie zestawu danych jako zestawu danych.
- "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki.
- "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji.
- "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark).
- path_on_compute
- str
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Użyj polecenia tabular_dataset.to_path
, aby wyświetlić strukturę folderów wyjściowych.
- name
- str
Nazwa zestawu danych w przebiegu, który może różnić się od zarejestrowanej nazwy. Nazwa zostanie zarejestrowana jako zmienna środowiskowa i może być używana na płaszczyźnie danych.
- dataset
- Dataset lub PipelineParameter lub tuple(Workspace, str) lub tuple(Workspace, str, str) lub OutputDatasetConfig
Zestaw danych, który ma zostać dostarczony jako obiekt Dataset, parametr potoku, który pozysuje zestaw danych, krotkę (obszar roboczy, nazwę zestawu danych) lub krotkę (obszar roboczy, nazwa zestawu danych, wersja zestawu danych). Jeśli zostanie podana tylko nazwa, konfiguracja DatasetConsumptionConfig będzie używać najnowszej wersji zestawu danych.
- mode
- str
Definiuje sposób dostarczania zestawu danych do docelowego obiektu obliczeniowego. Istnieją trzy tryby:
- "direct": używanie zestawu danych jako zestawu danych.
- "download": pobierz zestaw danych i użyj zestawu danych jako pobranej ścieżki.
- "instalowanie": zainstaluj zestaw danych i użyj go jako ścieżki instalacji.
- "hdfs": użyj zestawu danych z rozpoznanej ścieżki hdfs (obecnie obsługiwane tylko w obliczeniach programu SynapseSpark).
- path_on_compute
- str
Ścieżka docelowa w obliczeniach w celu udostępnienia danych. Struktura folderów danych źródłowych zostanie zachowana, jednak możemy dodać prefiksy do tej struktury folderów, aby uniknąć kolizji. Zalecamy wywołanie metody tabular_dataset.to_path , aby wyświetlić strukturę folderów wyjściowych.
Metody
as_download |
Ustaw tryb pobierania. W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.
|
as_hdfs |
Ustaw tryb na hdfs. W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.
|
as_mount |
Ustaw tryb instalacji. W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.
|
as_download
Ustaw tryb pobierania.
W przesłanym przebiegu pliki w zestawie danych zostaną pobrane do ścieżki lokalnej w docelowym obiekcie obliczeniowym. Lokalizację pobierania można pobrać z wartości argumentów i pola input_datasets kontekstu przebiegu.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametry
- path_on_compute
- str
Ścieżka docelowa w obliczeniach w celu udostępnienia danych.
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku lokalizacja pobierania będzie ścieżką pojedynczego pobranego pliku. W przeciwnym razie lokalizacja pobierania będzie ścieżką otaczającego folderu dla wszystkich pobranych plików.
Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.
as_hdfs
Ustaw tryb na hdfs.
W przesłanym przebiegu synapse pliki w zestawach danych zostaną przekonwertowane na ścieżkę lokalną w obiekcie docelowym obliczeń. Ścieżkę hdfs można pobrać z wartości argumentów i zmiennych środowiskowych systemu operacyjnego.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku ścieżka hdfs będzie ścieżką pojedynczego pliku. W przeciwnym razie ścieżka hdfs będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.
as_mount
Ustaw tryb instalacji.
W przesłanym przebiegu pliki w zestawach danych zostaną zainstalowane do ścieżki lokalnej na docelowym obiekcie obliczeniowym. Punkt instalacji można pobrać z wartości argumentów i pola input_datasets kontekstu uruchomienia.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametry
- path_on_compute
- str
Ścieżka docelowa w obliczeniach w celu udostępnienia danych.
Uwagi
Po utworzeniu zestawu danych na podstawie ścieżki pojedynczego pliku punkt instalacji będzie ścieżką pojedynczego zainstalowanego pliku. W przeciwnym razie punkt instalacji będzie ścieżką otaczającego folderu dla wszystkich zainstalowanych plików.
Jeśli path_on_compute zaczyna się od /, będzie traktowana jako ścieżka bezwzględna. Jeśli nie zaczyna się od /, będzie traktowana jako ścieżka względna względem katalogu roboczego. Jeśli określono ścieżkę bezwzględną, upewnij się, że zadanie ma uprawnienia do zapisu w tym katalogu.
Atrybuty
name
Nazwa danych wejściowych.
Zwraca
Nazwa danych wejściowych.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla