Sdílet prostřednictvím


OutputFileDatasetConfig Třída

Představuje, jak zkopírovat výstup spuštění a být povýšen jako FileDataset.

OutputFileDatasetConfig umožňuje určit, jak má být konkrétní místní cesta v cílovém výpočetním objektu odeslána do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného povýšení výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializace OutputFileDatasetConfig.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Dědičnost
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametry

Name Description
name
Vyžadováno
str

Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle.

destination
Vyžadováno

Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat.

Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.

source
Vyžadováno
str

Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.

partition_format
Vyžadováno
str

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

name
Vyžadováno
str

Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle.

destination
Vyžadováno

Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat.

Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.

source
Vyžadováno
str

Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.

partition_format
Vyžadováno
str

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

Poznámky

Jako argument do svého spuštění můžete předat OutputFileDatasetConfig, který se automaticky přeloží na místní cestu na výpočetním prostředí. Pokud je zadaný argument source, použijeme ho, jinak automaticky vygenerujeme adresář v dočasné složce operačního systému. Soubory a složky ve zdrojovém adresáři se pak zkopírují do cíle na základě konfigurace výstupu.

Ve výchozím nastavení bude režim, ve kterém se výstup zkopíruje do cílového úložiště, nastaven na připojení. Další informace o režimu připojení najdete v dokumentaci k as_mount.

Metody

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_mount

Nastavte režim výstupu na připojení.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_input(name=None)

Parametry

Name Description
name
Vyžadováno
str

Název vstupu specifického pro spuštění.

Návraty

Typ Description

Instance DatasetConsumptionConfig popisující způsob doručení vstupních dat

as_mount

Nastavte režim výstupu na připojení.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_mount(disable_metadata_cache=False)

Parametry

Name Description
disable_metadata_cache
Vyžadováno

Jestli se mají metadata ukládat do mezipaměti v místním uzlu, pokud je tato možnost zakázaná, uzel nebude moct během spuštění úlohy zobrazit soubory generované z jiných uzlů.

Návraty

Typ Description

Instance OutputFileDatasetConfig s režimem nastaveným na připojení.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_upload(overwrite=False, source_globs=None)

Parametry

Name Description
overwrite
Vyžadováno

Zda se mají přepsat soubory, které již v cíli existují.

source_globs
Vyžadováno

Vzory globů používané k filtrování souborů, které se budou nahrávat.

Návraty

Typ Description

Instance OutputFileDatasetConfig s režimem nastaveným na nahrání