PipelineOutputFileDataset Classe
Rappresenta i dati intermedi della pipeline alzati di livello a un set di dati di file di Azure Machine Learning.
Una volta alzati di livello i dati intermedi a un set di dati di Azure Machine Learning, verranno usati anche come set di dati anziché come DataReference nei passaggi successivi.
Creare dati intermedi che verranno alzati di livello a un set di dati di Azure Machine Learning.
- Ereditarietà
-
PipelineOutputFileDataset
Costruttore
PipelineOutputFileDataset(pipeline_data)
Parametri
- pipeline_data
- PipelineData
PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.
- pipeline_data
- PipelineData
PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.
Metodi
as_direct |
Impostare la modalità di utilizzo del set di dati su direct. In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati. |
as_download |
Impostare la modalità di utilizzo del set di dati da scaricare. |
as_mount |
Impostare la modalità di utilizzo del set di dati da montare. |
parse_delimited_files |
Trasformare il set di dati intermedio del file in un set di dati tabulare. Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio. |
parse_parquet_files |
Trasformare il set di dati intermedio del file in un set di dati tabulare. Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio. |
as_direct
Impostare la modalità di utilizzo del set di dati su direct.
In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati.
as_direct()
Restituisce
Oggetto PipelineOutputDataset modificato.
Tipo restituito
as_download
Impostare la modalità di utilizzo del set di dati da scaricare.
as_download(path_on_compute=None)
Parametri
- path_on_compute
- str
Percorso nel calcolo in cui scaricare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.
Restituisce
Oggetto PipelineOutputDataset modificato.
Tipo restituito
as_mount
Impostare la modalità di utilizzo del set di dati da montare.
as_mount(path_on_compute=None)
Parametri
- path_on_compute
- str
Percorso nel calcolo in cui montare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.
Restituisce
Oggetto PipelineOutputDataset modificato.
Tipo restituito
parse_delimited_files
Trasformare il set di dati intermedio del file in un set di dati tabulare.
Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parametri
- include_path
- bool
Valore booleano per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Ciò è utile quando si leggono più file e si vuole sapere da quale file proviene un determinato record o per mantenere informazioni utili nel percorso del file.
- header
- PromoteHeadersBehavior
Controlla la modalità di innalzamento di livello delle intestazioni di colonna durante la lettura dai file. L'impostazione predefinita presuppone che tutti i file abbiano la stessa intestazione.
- partition_format
- str
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.csv' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.
- file_extension
- str
Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.csv' quando il separatore è ',' e '.tsv' quando il separatore è tabulazioni e Nessuno in caso contrario. Se None viene passato, tutti i file verranno letti indipendentemente dalla relativa estensione (o dalla mancanza di estensione).
Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo stringa. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.
- quoted_line_breaks
- bool
Indica se gestire nuovi caratteri di riga tra virgolette. Questa opzione può influire sulle prestazioni.
Restituisce
Restituisce un dato intermedio che sarà un set di dati tabulare.
Tipo restituito
Commenti
Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.
parse_parquet_files
Trasformare il set di dati intermedio del file in un set di dati tabulare.
Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parametri
- include_path
- bool
Valore booleano per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Ciò è utile quando si leggono più file e si vuole sapere da quale file proviene un determinato record o per mantenere informazioni utili nel percorso del file.
- partition_format
- str
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.
- file_extension
- str
Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.parquet'. Se questa opzione è impostata su Nessuno, tutti i file verranno letti indipendentemente dall'estensione (o dalla mancanza di estensione).
Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo caricato dal file parquet. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.
Restituisce
Restituisce un dato intermedio che sarà un set di dati tabulare.
Tipo restituito
Commenti
Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per