OutputFileDatasetConfig Classe
Rappresentare come copiare l'output di un'esecuzione e essere promosso come FileDataset.
OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.
Esempio di non passaggio di argomenti:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inizializzare un outputFileDatasetConfig.
OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.
Esempio di non passaggio di argomenti:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Ereditarietà
-
OutputFileDatasetConfigOutputFileDatasetConfig
Costruttore
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametri
- name
- str
Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione.
- destination
- tuple
Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati.
Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}.
- source
- str
Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo.
- partition_format
- str
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.
- name
- str
Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione.
- destination
- tuple
Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati.
Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}.
- source
- str
Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo.
- partition_format
- str
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.
Commenti
È possibile passare outputFileDatasetConfig come argomento all'esecuzione e verrà convertito automaticamente nel percorso locale nel calcolo. L'argomento di origine verrà usato se specificato, in caso contrario, verrà generata automaticamente una directory nella cartella temp del sistema operativo. I file e le cartelle all'interno della directory di origine verranno quindi copiati nella destinazione in base alla configurazione di output.
Per impostazione predefinita, la modalità in cui l'output verrà copiato nell'archivio di destinazione verrà impostato sul montaggio. Per altre informazioni sulla modalità di montaggio, vedere la documentazione per as_mount.
Metodi
as_input |
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline. |
as_mount |
Impostare la modalità dell'output su montaggio. Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso. |
as_upload |
Impostare la modalità dell'output da caricare. Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata. |
as_input
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.
as_input(name=None)
Parametri
Restituisce
DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input.
Tipo restituito
as_mount
Impostare la modalità dell'output su montaggio.
Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.
as_mount(disable_metadata_cache=False)
Parametri
- disable_metadata_cache
- bool
Se memorizzare nella cache i metadati nel nodo locale, se disabilitato un nodo non sarà in grado di visualizzare i file generati da altri nodi durante l'esecuzione del processo.
Restituisce
OutputFileDatasetConfig Istanza con modalità impostata su montaggio.
Tipo restituito
as_upload
Impostare la modalità dell'output da caricare.
Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.
as_upload(overwrite=False, source_globs=None)
Parametri
Restituisce
OutputFileDatasetConfig Istanza con modalità impostata per il caricamento.
Tipo restituito
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per