OutputFileDatasetConfig Klasa
Przedstawianie sposobu kopiowania danych wyjściowych przebiegu i podwyższenia poziomu jako elementu FileDataset.
Parametr OutputFileDatasetConfig umożliwia określenie sposobu przekazywania określonej ścieżki lokalnej do określonego miejsca docelowego obliczeniowego do określonego miejsca docelowego. Jeśli żaden argument nie zostanie przekazany do konstruktora, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną.
Przykład braku przekazywania żadnych argumentów:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Zainicjuj plik OutputFileDatasetConfig.
Parametr OutputFileDatasetConfig umożliwia określenie sposobu przekazywania określonej ścieżki lokalnej do określonego miejsca docelowego obliczeniowego do określonego miejsca docelowego. Jeśli żaden argument nie zostanie przekazany do konstruktora, automatycznie wygenerujemy nazwę, lokalizację docelową i ścieżkę lokalną.
Przykład braku przekazywania żadnych argumentów:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Przykład tworzenia danych wyjściowych, a następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Dziedziczenie
-
OutputFileDatasetConfigOutputFileDatasetConfig
Konstruktor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametry
- name
- str
Nazwa danych wyjściowych specyficznych dla tego przebiegu. Jest to zwykle używane do celów pochodzenia. Jeśli ustawiono wartość Brak, automatycznie wygenerujemy nazwę. Nazwa stanie się również zmienną środowiskową zawierającą ścieżkę lokalną, w której można zapisywać pliki wyjściowe i foldery, do których zostaną przekazane do miejsca docelowego.
- destination
- tuple
Miejsce docelowe do skopiowania danych wyjściowych. Jeśli ustawimy wartość Brak, skopiujemy dane wyjściowe do magazynu danych workspaceblobstore w ścieżce /dataset/{run-id}/{output-name}, gdzie identyfikator run-id jest identyfikatorem Przebiegu , a nazwa-danych wyjściowych jest nazwą wyjściową z powyższego parametru nazwy . Miejsce docelowe to krotka, w której pierwszy element jest magazynem danych, a drugi element jest ścieżką w magazynie danych w celu skopiowania danych do.
Ścieżka w magazynie danych może być ścieżką szablonu. Ścieżka szablonu to zwykła ścieżka, ale z symbolami zastępczymi wewnątrz. Te symbole zastępcze zostaną rozwiązane w odpowiednim czasie. Składnia symboli zastępczych to {symbol zastępczy}, na przykład /path/with/{placeholder}. Obecnie obsługiwane są tylko dwa symbole zastępcze: {run-id} i {output-name}.
- source
- str
Ścieżka w obiekcie docelowym obliczeniowym do skopiowania danych. Jeśli zostanie ustawiona wartość Brak, ustawimy ten katalog na katalog, który utworzymy w katalogu tymczasowym systemu operacyjnego obiektu obliczeniowego.
- partition_format
- str
Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".
- name
- str
Nazwa danych wyjściowych specyficznych dla tego przebiegu. Jest to zwykle używane do celów pochodzenia. Jeśli ustawiono wartość Brak, automatycznie wygenerujemy nazwę. Nazwa stanie się również zmienną środowiskową zawierającą ścieżkę lokalną, w której można zapisywać pliki wyjściowe i foldery, do których zostaną przekazane do miejsca docelowego.
- destination
- tuple
Miejsce docelowe do skopiowania danych wyjściowych. Jeśli ustawimy wartość Brak, skopiujemy dane wyjściowe do magazynu danych workspaceblobstore w ścieżce /dataset/{run-id}/{output-name}, gdzie identyfikator run-id jest identyfikatorem Przebiegu , a nazwa-danych wyjściowych jest nazwą wyjściową z powyższego parametru nazwy . Miejsce docelowe to krotka, w której pierwszy element jest magazynem danych, a drugi element jest ścieżką w magazynie danych w celu skopiowania danych do.
Ścieżka w magazynie danych może być ścieżką szablonu. Ścieżka szablonu to zwykła ścieżka, ale z symbolami zastępczymi wewnątrz. Te symbole zastępcze zostaną rozwiązane w odpowiednim czasie. Składnia symboli zastępczych to {symbol zastępczy}, na przykład /path/with/{placeholder}. Obecnie obsługiwane są tylko dwa symbole zastępcze: {run-id} i {output-name}.
- source
- str
Ścieżka w obiekcie docelowym obliczeniowym do skopiowania danych. Jeśli zostanie ustawiona wartość Brak, ustawimy ten katalog na katalog, który utworzymy w katalogu tymczasowym systemu operacyjnego obiektu obliczeniowego.
- partition_format
- str
Określ format partycji ścieżki. Domyślnie wartość Brak. Informacje o partycji każdej ścieżki zostaną wyodrębnione do kolumn na podstawie określonego formatu. Część formatu "{column_name}" tworzy kolumnę ciągu i "{column_name:rrrr/MM/dd/HH/mm/ss}" tworzy kolumnę datetime, gdzie "rrrr", "MM", "dd", "HH", "mm" i "ss" są używane do wyodrębniania roku, miesiąca, dnia, godziny, minuty i sekundy dla typu daty/godziny. Format powinien rozpoczynać się od pozycji pierwszego klucza partycji do końca ścieżki pliku. Na przykład podana ścieżka '.. /Accounts/2019/01/01/data.parquet" gdzie partycja jest według nazwy i godziny działu, partition_format="/{Department}/{PartitionDate:rrrr/MM/dd}/data.parquet" tworzy kolumnę ciągu "Dział" z wartością "Accounts" i kolumną daty/godziny "PartitionDate" o wartości "2019-01-01".
Uwagi
Możesz przekazać parametr OutputFileDatasetConfig jako argument do przebiegu i zostanie on automatycznie przetłumaczony na ścieżkę lokalną w środowisku obliczeniowym. Argument źródłowy będzie używany, jeśli zostanie określony, w przeciwnym razie automatycznie wygenerujemy katalog w folderze tymczasowym systemu operacyjnego. Pliki i foldery wewnątrz katalogu źródłowego zostaną następnie skopiowane do miejsca docelowego na podstawie konfiguracji danych wyjściowych.
Domyślnie tryb, w którym dane wyjściowe zostaną skopiowane do magazynu docelowego, zostanie ustawiony na instalację. Aby uzyskać więcej informacji na temat trybu instalacji, zobacz dokumentację dotyczącą as_mount.
Metody
as_input |
Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku. |
as_mount |
Ustaw tryb danych wyjściowych na instalację. W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym w formacie FUSE. Pliki zapisane w zainstalowanym katalogu zostaną przekazane po zamknięciu pliku. |
as_upload |
Ustaw tryb przekazywania danych wyjściowych. W przypadku trybu przekazywania pliki zapisane w katalogu wyjściowym zostaną przekazane na końcu zadania. Jeśli zadanie zakończy się niepowodzeniem lub zostanie anulowane, katalog wyjściowy nie zostanie przekazany. |
as_input
Określ sposób korzystania z danych wyjściowych jako danych wejściowych w kolejnych krokach potoku.
as_input(name=None)
Parametry
Zwraca
DatasetConsumptionConfig Wystąpienie opisujące sposób dostarczania danych wejściowych.
Typ zwracany
as_mount
Ustaw tryb danych wyjściowych na instalację.
W przypadku trybu instalacji katalog wyjściowy będzie katalogiem zainstalowanym w formacie FUSE. Pliki zapisane w zainstalowanym katalogu zostaną przekazane po zamknięciu pliku.
as_mount(disable_metadata_cache=False)
Parametry
- disable_metadata_cache
- bool
Czy buforować metadane w węźle lokalnym, jeśli węzeł nie będzie mógł wyświetlać plików generowanych z innych węzłów podczas uruchamiania zadania.
Zwraca
Wystąpienie OutputFileDatasetConfig z trybem ustawionym na instalację.
Typ zwracany
as_upload
Ustaw tryb przekazywania danych wyjściowych.
W przypadku trybu przekazywania pliki zapisane w katalogu wyjściowym zostaną przekazane na końcu zadania. Jeśli zadanie zakończy się niepowodzeniem lub zostanie anulowane, katalog wyjściowy nie zostanie przekazany.
as_upload(overwrite=False, source_globs=None)
Parametry
Wzorce globu używane do filtrowania plików, które zostaną przekazane.
Zwraca
Wystąpienie OutputFileDatasetConfig z trybem ustawionym na przekazywanie.
Typ zwracany
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla