OutputFileDatasetConfig Klasa

Odwołanie

Przedstawianie sposobu kopiowania danych wyjściowych przebiegu i podniesiania jej poziomu jako zestawu danych FileDataset.

Plik OutputFileDatasetConfig umożliwia określenie, jak chcesz przekazać konkretną ścieżkę lokalną do określonego miejsca docelowego obliczeniowego. Jeśli do konstruktora nie zostaną przekazane żadne argumenty, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną.

Przykład braku przekazywania żadnych argumentów:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Zainicjuj plik OutputFileDatasetConfig.

Parametr OutputFileDatasetConfig umożliwia określenie sposobu przekazywania określonej ścieżki lokalnej do określonego miejsca docelowego obliczeniowego do określonego miejsca docelowego. Jeśli żaden argument nie zostanie przekazany do konstruktora, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną.

Przykład braku przekazywania żadnych argumentów:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Dziedziczenie: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametry

Nazwa	Opis
name Wymagane	str Nazwa danych wyjściowych specyficznych dla tego przebiegu. Jest to zwykle używane do celów pochodzenia. Jeśli zostanie ustawiona wartość Brak, automatycznie wygenerujemy nazwę. Nazwa stanie się również zmienną środowiskową zawierającą ścieżkę lokalną, w której można zapisywać pliki wyjściowe i foldery, do których zostaną przekazane do miejsca docelowego.
destination Wymagane	tuple Miejsce docelowe do skopiowania danych wyjściowych. Jeśli ustawimy wartość Brak, skopiujemy dane wyjściowe do magazynu danych workspaceblobstore w ścieżce /dataset/{run-id}/{ output-name}, gdzie element run-id jest identyfikatorem przebiegu , a nazwa wyjściowa jest nazwą wyjściową z powyższego parametru name . Miejsce docelowe to krotka, w której pierwszy element jest magazynem danych, a drugi element jest ścieżką w magazynie danych do skopiowania danych. Ścieżka w magazynie danych może być ścieżką szablonu. Ścieżka szablonu jest po prostu zwykłą ścieżką, ale z symbolami zastępczymi wewnątrz. Te symbole zastępcze zostaną rozwiązane w odpowiednim czasie. Składnia symboli zastępczych to {symbol zastępczy}, na przykład /path/with/{placeholder}. Obecnie obsługiwane są tylko dwa symbole zastępcze: {run-id} i {output-name}.
source Wymagane	str Ścieżka w obiekcie docelowym obliczeniowym do skopiowania danych. Jeśli zostanie ustawiona wartość Brak, ustawimy go na katalog, który utworzymy wewnątrz katalogu tymczasowego systemu operacyjnego obiektu obliczeniowego.
partition_format Wymagane	str Określ format partycji ścieżki. Wartość domyślna to None (Brak). Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu data/godzina. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".
name Wymagane	str Nazwa danych wyjściowych specyficznych dla tego przebiegu. Jest to zwykle używane do celów pochodzenia. Jeśli zostanie ustawiona wartość Brak, automatycznie wygenerujemy nazwę. Nazwa stanie się również zmienną środowiskową zawierającą ścieżkę lokalną, w której można zapisywać pliki wyjściowe i foldery, do których zostaną przekazane do miejsca docelowego.
destination Wymagane	tuple Miejsce docelowe do skopiowania danych wyjściowych. Jeśli ustawimy wartość Brak, skopiujemy dane wyjściowe do magazynu danych workspaceblobstore w ścieżce /dataset/{run-id}/{ output-name}, gdzie element run-id jest identyfikatorem przebiegu , a nazwa wyjściowa jest nazwą wyjściową z powyższego parametru name . Miejsce docelowe to krotka, w której pierwszy element jest magazynem danych, a drugi element jest ścieżką w magazynie danych do skopiowania danych. Ścieżka w magazynie danych może być ścieżką szablonu. Ścieżka szablonu jest po prostu zwykłą ścieżką, ale z symbolami zastępczymi wewnątrz. Te symbole zastępcze zostaną rozwiązane w odpowiednim czasie. Składnia symboli zastępczych to {symbol zastępczy}, na przykład /path/with/{placeholder}. Obecnie obsługiwane są tylko dwa symbole zastępcze: {run-id} i {output-name}.
source Wymagane	str Ścieżka w obiekcie docelowym obliczeniowym do skopiowania danych. Jeśli zostanie ustawiona wartość Brak, ustawimy go na katalog, który utworzymy wewnątrz katalogu tymczasowego systemu operacyjnego obiektu obliczeniowego.
partition_format Wymagane	str Określ format partycji ścieżki. Wartość domyślna to None (Brak). Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu data/godzina. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład, biorąc pod uwagę ścieżkę '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Dział}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".

Uwagi

Możesz przekazać parametr OutputFileDatasetConfig jako argument do przebiegu i zostanie on automatycznie przetłumaczony na ścieżkę lokalną w obliczeniach. Argument źródłowy zostanie użyty, jeśli zostanie określony, w przeciwnym razie automatycznie wygenerujemy katalog w folderze tymczasowym systemu operacyjnego. Pliki i foldery wewnątrz katalogu źródłowego zostaną następnie skopiowane do miejsca docelowego na podstawie konfiguracji wyjściowej.

Domyślnie tryb kopiowania danych wyjściowych do magazynu docelowego zostanie ustawiony na instalację. Aby uzyskać więcej informacji na temat trybu instalacji, zobacz dokumentację dotyczącą as_mount.

Metody

as_input

Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku.

as_mount

Ustaw tryb danych wyjściowych na instalację.

W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym przez aplikację FUSE. Pliki zapisywane w katalogu zainstalowanym zostaną przekazane po zamknięciu pliku.

as_upload

Ustaw tryb przekazywania danych wyjściowych.

W przypadku trybu przekazywania pliki zapisywane w katalogu wyjściowym zostaną przekazane na końcu zadania. Jeśli zadanie zakończy się niepowodzeniem lub zostanie anulowane, katalog wyjściowy nie zostanie przekazany.

as_input

Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku.

as_input(name=None)

Parametry

Nazwa	Opis
name Wymagane	str Nazwa danych wejściowych specyficznych dla przebiegu.

Zwraca

Typ	Opis
DatasetConsumptionConfig	DatasetConsumptionConfig Wystąpienie opisujące sposób dostarczania danych wejściowych.

as_mount

Ustaw tryb danych wyjściowych na instalację.

W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym przez aplikację FUSE. Pliki zapisywane w katalogu zainstalowanym zostaną przekazane po zamknięciu pliku.

as_mount(disable_metadata_cache=False)

Parametry

Nazwa	Opis
disable_metadata_cache Wymagane	bool Czy buforować metadane w węźle lokalnym, jeśli węzeł jest wyłączony, nie będzie mógł wyświetlać plików generowanych z innych węzłów podczas uruchamiania zadania.

Zwraca

Typ	Opis
OutputFileDatasetConfig	OutputFileDatasetConfig Wystąpienie z trybem ustawionym na instalację.

as_upload

Ustaw tryb przekazywania danych wyjściowych.

as_upload(overwrite=False, source_globs=None)

Parametry

Nazwa	Opis
overwrite Wymagane	bool Czy zastąpić pliki, które już istnieją w miejscu docelowym.
source_globs Wymagane	list[str] Wzorce globu używane do filtrowania plików, które zostaną przekazane.

Zwraca

Typ	Opis
OutputFileDatasetConfig	OutputFileDatasetConfig Wystąpienie z trybem ustawionym na przekazywanie.

Udostępnij za pośrednictwem

OutputFileDatasetConfig Klasa

Konstruktor

Parametry

Uwagi

Metody

as_input

Parametry

Zwraca

as_mount

Parametry

Zwraca

as_upload

Parametry

Zwraca

Opinia

Opinia

Dodatkowe zasoby