OutputFileDatasetConfig Klass

Representerar hur du kopierar utdata från en körning och befordras som en FileDataset.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan befordrar utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initiera en OutputFileDatasetConfig.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan befordrar utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Arv
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametrar

name
str
Obligatorisk

Namnet på utdata som är specifika för den här körningen. Detta används vanligtvis för ursprung. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.

destination
tuple
Obligatorisk

Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till dataarkivet workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i dataarkivet som datalagringen ska kopieras till.

Sökvägen i dataarkivet kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Platshållarna löses sedan vid lämplig tidpunkt. Syntaxen för platshållare är {platshållare}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare, {run-id} och {output-name}.

source
str
Obligatorisk

Sökvägen inom beräkningsmålet som data ska kopieras från. Om värdet är Ingen anger vi detta till en katalog som vi skapar i beräkningsmålets tillfälliga katalog för operativsystemet.

partition_format
str
Obligatorisk

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:yyyy/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åååå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Avdelning}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

name
str
Obligatorisk

Namnet på utdata som är specifika för den här körningen. Detta används vanligtvis för ursprung. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet.

destination
tuple
Obligatorisk

Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till dataarkivet workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i dataarkivet som datalagringen ska kopieras till.

Sökvägen i dataarkivet kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Platshållarna löses sedan vid lämplig tidpunkt. Syntaxen för platshållare är {platshållare}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare, {run-id} och {output-name}.

source
str
Obligatorisk

Sökvägen inom beräkningsmålet som data ska kopieras från. Om värdet är Ingen anger vi detta till en katalog som vi skapar i beräkningsmålets tillfälliga katalog för operativsystemet.

partition_format
str
Obligatorisk

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:yyyy/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åååå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Avdelning}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

Kommentarer

Du kan skicka OutputFileDatasetConfig som ett argument till din körning och den översätts automatiskt till lokal sökväg i beräkningen. Källargumentet används om ett anges, annars genererar vi automatiskt en katalog i operativsystemets temp-mapp. Filerna och mapparna i källkatalogen kopieras sedan till målet baserat på utdatakonfigurationen.

Som standard kommer det läge som utdata ska kopieras till mållagringen att ställas in på montering. Mer information om monteringsläge finns i dokumentationen för as_mount.

Metoder

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivits till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_input(name=None)

Parametrar

name
str
Obligatorisk

Namnet på de indata som är specifika för körningen.

Returer

En DatasetConsumptionConfig instans som beskriver hur du levererar indata.

Returtyp

as_mount

Ange läget för utdata till montering.

För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_mount(disable_metadata_cache=False)

Parametrar

disable_metadata_cache
bool
Obligatorisk

Om metadata ska cachelagras i en lokal nod kan en nod inte se filer som genereras från andra noder när jobbet körs om den är inaktiverad.

Returer

En OutputFileDatasetConfig instans med läge inställt på montering.

Returtyp

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivits till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_upload(overwrite=False, source_globs=None)

Parametrar

overwrite
bool
Obligatorisk

Om du vill skriva över filer som redan finns i målet.

source_globs
list[str]
Obligatorisk

Globmönster som används för att filtrera filer som ska laddas upp.

Returer

En OutputFileDatasetConfig instans med läget inställt på uppladdning.

Returtyp