OutputFileDatasetConfig Klass
Representerar hur du kopierar utdata från en körning och befordras som en FileDataset.
Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.
Ett exempel på att inte skicka några argument:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Initiera en OutputFileDatasetConfig.
Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.
Ett exempel på att inte skicka några argument:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Ett exempel på hur du skapar utdata och sedan befordrar utdata till en tabelldatauppsättning och registrerar den med namnet foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Arv
-
OutputFileDatasetConfigOutputFileDatasetConfig
Konstruktor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametrar
Name | Description |
---|---|
name
Obligatorisk
|
Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet. |
destination
Obligatorisk
|
Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till. Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}. |
source
Obligatorisk
|
Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog. |
partition_format
Obligatorisk
|
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'. |
name
Obligatorisk
|
Namnet på de utdata som är specifika för den här körningen. Detta används vanligtvis för ursprungsändamål. Om värdet är Ingen genererar vi automatiskt ett namn. Namnet blir också en miljövariabel som innehåller den lokala sökvägen där du kan skriva utdatafiler och mappar till som laddas upp till målet. |
destination
Obligatorisk
|
Målet att kopiera utdata till. Om värdet är Ingen kopierar vi utdata till datalagringsplatsen workspaceblobstore under sökvägen /dataset/{run-id}/{output-name}, där run-id är Körningens ID och utdatanamnet är utdatanamnet från namnparametern ovan. Målet är en tupplar där det första objektet är datalagringen och det andra objektet är sökvägen i datalagringen som data ska kopieras till. Sökvägen i datalagringen kan vara en mallsökväg. En mallsökväg är bara en vanlig sökväg men med platshållare inuti. Dessa platshållare kommer sedan att lösas vid lämplig tidpunkt. Platshållarnas syntax är {placeholder}, till exempel /path/with/{placeholder}. För närvarande stöds endast två platshållare: {run-id} och {output-name}. |
source
Obligatorisk
|
Sökvägen i beräkningsmålet som data ska kopieras från. Om värdet är None (Ingen) anger vi detta till en katalog som vi skapar i beräkningsmålets temporära operativsystemkatalog. |
partition_format
Obligatorisk
|
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.parquet' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'. |
Kommentarer
Du kan skicka OutputFileDatasetConfig som ett argument till körningen och den översätts automatiskt till en lokal sökväg i beräkningen. Källargumentet används om ett anges, annars genererar vi automatiskt en katalog i operativsystemets temp-mapp. Filerna och mapparna i källkatalogen kopieras sedan till målet baserat på utdatakonfigurationen.
Som standard kommer det läge som utdata ska kopieras till mållagringen att ställas in på montering. Mer information om monteringsläge finns i dokumentationen för as_mount.
Metoder
as_input |
Ange hur utdata ska användas som indata i efterföljande pipelinesteg. |
as_mount |
Ange läget för utdata till montering. För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs. |
as_upload |
Ange läget för utdata som ska laddas upp. För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp. |
as_input
Ange hur utdata ska användas som indata i efterföljande pipelinesteg.
as_input(name=None)
Parametrar
Name | Description |
---|---|
name
Obligatorisk
|
Namnet på de indata som är specifika för körningen. |
Returer
Typ | Description |
---|---|
En DatasetConsumptionConfig instans som beskriver hur du levererar indata. |
as_mount
Ange läget för utdata till montering.
För monteringsläge blir utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.
as_mount(disable_metadata_cache=False)
Parametrar
Name | Description |
---|---|
disable_metadata_cache
Obligatorisk
|
Om metadata ska cachelagras i en lokal nod kan en nod inte se filer som genereras från andra noder under jobbkörningen om den är inaktiverad. |
Returer
Typ | Description |
---|---|
En OutputFileDatasetConfig instans med läge inställt på montering. |
as_upload
Ange läget för utdata som ska laddas upp.
För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.
as_upload(overwrite=False, source_globs=None)
Parametrar
Name | Description |
---|---|
overwrite
Obligatorisk
|
Om du vill skriva över filer som redan finns i målet. |
source_globs
Obligatorisk
|
Globmönster som används för att filtrera filer som ska laddas upp. |
Returer
Typ | Description |
---|---|
En OutputFileDatasetConfig instans med läget inställt på uppladdning. |