OutputFileDatasetConfig Třída

Reference

Představuje, jak zkopírovat výstup spuštění a být povýšen jako FileDataset.

OutputFileDatasetConfig umožňuje určit, jak má být konkrétní místní cesta v cílovém výpočetním objektu odeslána do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného povýšení výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializace OutputFileDatasetConfig.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Dědičnost: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametry

Name	Description
name Vyžadováno	str Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle.
destination Vyžadováno	tuple Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat. Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.
source Vyžadováno	str Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.
partition_format Vyžadováno	str Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.
name Vyžadováno	str Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle.
destination Vyžadováno	tuple Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat. Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.
source Vyžadováno	str Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.
partition_format Vyžadováno	str Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

Poznámky

Jako argument do svého spuštění můžete předat OutputFileDatasetConfig, který se automaticky přeloží na místní cestu na výpočetním prostředí. Pokud je zadaný argument source, použijeme ho, jinak automaticky vygenerujeme adresář v dočasné složce operačního systému. Soubory a složky ve zdrojovém adresáři se pak zkopírují do cíle na základě konfigurace výstupu.

Ve výchozím nastavení bude režim, ve kterém se výstup zkopíruje do cílového úložiště, nastaven na připojení. Další informace o režimu připojení najdete v dokumentaci k as_mount.

Metody

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_mount

Nastavte režim výstupu na připojení.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_input(name=None)

Parametry

Name	Description
name Vyžadováno	str Název vstupu specifického pro spuštění.

Návraty

Typ	Description
DatasetConsumptionConfig	Instance DatasetConsumptionConfig popisující způsob doručení vstupních dat

as_mount

Nastavte režim výstupu na připojení.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_mount(disable_metadata_cache=False)

Parametry

Name	Description
disable_metadata_cache Vyžadováno	bool Jestli se mají metadata ukládat do mezipaměti v místním uzlu, pokud je tato možnost zakázaná, uzel nebude moct během spuštění úlohy zobrazit soubory generované z jiných uzlů.

Návraty

Typ	Description
OutputFileDatasetConfig	Instance OutputFileDatasetConfig s režimem nastaveným na připojení.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_upload(overwrite=False, source_globs=None)

Parametry

Name	Description
overwrite Vyžadováno	bool Zda se mají přepsat soubory, které již v cíli existují.
source_globs Vyžadováno	list[str] Vzory globů používané k filtrování souborů, které se budou nahrávat.

Návraty

Typ	Description
OutputFileDatasetConfig	Instance OutputFileDatasetConfig s režimem nastaveným na nahrání

Sdílet prostřednictvím

OutputFileDatasetConfig Třída

Konstruktor

Parametry

Poznámky

Metody

as_input

Parametry

Návraty

as_mount

Parametry

Návraty

as_upload

Parametry

Návraty

Váš názor

Váš názor

Další materiály