OutputFileDatasetConfig Classe

Riferimento

Rappresentare come copiare l'output di un'esecuzione e essere promosso come FileDataset.

OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.

Esempio di non passaggio di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inizializzare un outputFileDatasetConfig.

Esempio di non passaggio di argomenti:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ereditarietà: OutputDatasetConfig

OutputFileDatasetConfig

TransformationMixin

OutputFileDatasetConfig

Costruttore

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametri

name: str

Necessario

Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione.

destination: tuple

Necessario

Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati.

Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}.

source: str

Necessario

Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo.

partition_format: str

Necessario

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

name: str

Necessario

destination: tuple

Necessario

source: str

Necessario

partition_format: str

Necessario

Commenti

È possibile passare outputFileDatasetConfig come argomento all'esecuzione e verrà convertito automaticamente nel percorso locale nel calcolo. L'argomento di origine verrà usato se specificato, in caso contrario, verrà generata automaticamente una directory nella cartella temp del sistema operativo. I file e le cartelle all'interno della directory di origine verranno quindi copiati nella destinazione in base alla configurazione di output.

Per impostazione predefinita, la modalità in cui l'output verrà copiato nell'archivio di destinazione verrà impostato sul montaggio. Per altre informazioni sulla modalità di montaggio, vedere la documentazione per as_mount.

Metodi

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_input(name=None)

Parametri

name: str

Necessario

Nome dell'input specifico dell'esecuzione.

Restituisce

DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input.

Tipo restituito

DatasetConsumptionConfig

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_mount(disable_metadata_cache=False)

Parametri

disable_metadata_cache: bool

Necessario

Se memorizzare nella cache i metadati nel nodo locale, se disabilitato un nodo non sarà in grado di visualizzare i file generati da altri nodi durante l'esecuzione del processo.

Restituisce

OutputFileDatasetConfig Istanza con modalità impostata su montaggio.

Tipo restituito

OutputFileDatasetConfig

as_upload

Impostare la modalità dell'output da caricare.

as_upload(overwrite=False, source_globs=None)

Parametri

overwrite: bool

Necessario

Se sovrascrivere i file già presenti nella destinazione.

source_globs: list[str]

Necessario

Modelli Glob usati per filtrare i file che verranno caricati.

Restituisce

OutputFileDatasetConfig Istanza con modalità impostata per il caricamento.

Tipo restituito

OutputFileDatasetConfig

Condividi tramite

OutputFileDatasetConfig Classe

Costruttore

Parametri

Commenti

Metodi

as_input

Parametri

Restituisce

Tipo restituito

as_mount

Parametri

Restituisce

Tipo restituito

as_upload

Parametri

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive