Condividi tramite


PipelineOutputFileDataset Classe

Rappresenta i dati intermedi della pipeline alzati di livello a un set di dati di file di Azure Machine Learning.

Una volta alzati di livello i dati intermedi a un set di dati di Azure Machine Learning, verranno usati anche come set di dati anziché come DataReference nei passaggi successivi.

Creare dati intermedi che verranno alzati di livello a un set di dati di Azure Machine Learning.

Ereditarietà
PipelineOutputFileDataset

Costruttore

PipelineOutputFileDataset(pipeline_data)

Parametri

pipeline_data
PipelineData
Necessario

PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.

pipeline_data
PipelineData
Necessario

PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.

Metodi

as_direct

Impostare la modalità di utilizzo del set di dati su direct.

In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati.

as_download

Impostare la modalità di utilizzo del set di dati da scaricare.

as_mount

Impostare la modalità di utilizzo del set di dati da montare.

parse_delimited_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio.

parse_parquet_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio.

as_direct

Impostare la modalità di utilizzo del set di dati su direct.

In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati.

as_direct()

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

as_download

Impostare la modalità di utilizzo del set di dati da scaricare.

as_download(path_on_compute=None)

Parametri

path_on_compute
str
valore predefinito: None

Percorso nel calcolo in cui scaricare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

as_mount

Impostare la modalità di utilizzo del set di dati da montare.

as_mount(path_on_compute=None)

Parametri

path_on_compute
str
valore predefinito: None

Percorso nel calcolo in cui montare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

parse_delimited_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametri

include_path
bool
valore predefinito: False

Valore booleano per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Ciò è utile quando si leggono più file e si vuole sapere da quale file proviene un determinato record o per mantenere informazioni utili nel percorso del file.

separator
str
valore predefinito: ,

Separatore utilizzato per suddividere le colonne.

header
PromoteHeadersBehavior
valore predefinito: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controlla la modalità di innalzamento di livello delle intestazioni di colonna durante la lettura dai file. L'impostazione predefinita presuppone che tutti i file abbiano la stessa intestazione.

partition_format
str
valore predefinito: None

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.csv' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

file_extension
str
Necessario

Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.csv' quando il separatore è ',' e '.tsv' quando il separatore è tabulazioni e Nessuno in caso contrario. Se None viene passato, tutti i file verranno letti indipendentemente dalla relativa estensione (o dalla mancanza di estensione).

set_column_types
dict[str, DataType]
valore predefinito: None

Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo stringa. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.

quoted_line_breaks
bool
valore predefinito: False

Indica se gestire nuovi caratteri di riga tra virgolette. Questa opzione può influire sulle prestazioni.

Restituisce

Restituisce un dato intermedio che sarà un set di dati tabulare.

Tipo restituito

Commenti

Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.

parse_parquet_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametri

include_path
bool
valore predefinito: False

Valore booleano per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Ciò è utile quando si leggono più file e si vuole sapere da quale file proviene un determinato record o per mantenere informazioni utili nel percorso del file.

partition_format
str
valore predefinito: None

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

file_extension
str
valore predefinito: .parquet

Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.parquet'. Se questa opzione è impostata su Nessuno, tutti i file verranno letti indipendentemente dall'estensione (o dalla mancanza di estensione).

set_column_types
dict[str, DataType]
valore predefinito: None

Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo caricato dal file parquet. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.

Restituisce

Restituisce un dato intermedio che sarà un set di dati tabulare.

Tipo restituito

Commenti

Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.