Condividi tramite


OutputFileDatasetConfig Classe

Rappresentare come copiare l'output di un'esecuzione e essere promosso come FileDataset.

OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.

Esempio di non passaggio di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inizializzare un oggetto OutputFileDatasetConfig.

OutputFileDatasetConfig consente di specificare la modalità di caricamento di un determinato percorso locale nella destinazione di calcolo nella destinazione specificata. Se al costruttore non vengono passati argomenti, verrà generato automaticamente un nome, una destinazione e un percorso locale.

Esempio di mancata trasmissione di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi innalzamento di livello dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Ereditarietà
OutputFileDatasetConfig
OutputFileDatasetConfig

Costruttore

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametri

Nome Descrizione
name
Necessario
str

Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione.

destination
Necessario

Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati.

Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}.

source
Necessario
str

Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo.

partition_format
Necessario
str

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

name
Necessario
str

Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione.

destination
Necessario

Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati.

Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}.

source
Necessario
str

Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo.

partition_format
Necessario
str

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

Commenti

È possibile passare outputFileDatasetConfig come argomento all'esecuzione e verrà convertito automaticamente nel percorso locale nel calcolo. L'argomento di origine verrà usato se specificato, in caso contrario, verrà generata automaticamente una directory nella cartella temp del sistema operativo. I file e le cartelle all'interno della directory di origine verranno quindi copiati nella destinazione in base alla configurazione di output.

Per impostazione predefinita, la modalità in cui l'output verrà copiato nell'archivio di destinazione verrà impostato sul montaggio. Per altre informazioni sulla modalità di montaggio, vedere la documentazione per as_mount.

Metodi

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_input(name=None)

Parametri

Nome Descrizione
name
Necessario
str

Nome dell'input specifico dell'esecuzione.

Restituisce

Tipo Descrizione

DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_mount(disable_metadata_cache=False)

Parametri

Nome Descrizione
disable_metadata_cache
Necessario

Se memorizzare nella cache i metadati nel nodo locale, se disabilitato un nodo non sarà in grado di visualizzare i file generati da altri nodi durante l'esecuzione del processo.

Restituisce

Tipo Descrizione

OutputFileDatasetConfig Istanza con modalità impostata su montaggio.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

as_upload(overwrite=False, source_globs=None)

Parametri

Nome Descrizione
overwrite
Necessario

Se sovrascrivere i file già presenti nella destinazione.

source_globs
Necessario

Modelli Glob usati per filtrare i file che verranno caricati.

Restituisce

Tipo Descrizione

OutputFileDatasetConfig Istanza con modalità impostata per il caricamento.