PipelineOutputFileDataset Classe

Riferimento

Rappresenta i dati intermedi della pipeline alzati di livello a un set di dati di file di Azure Machine Learning.

Una volta alzati di livello i dati intermedi a un set di dati di Azure Machine Learning, verranno usati anche come set di dati anziché come DataReference nei passaggi successivi.

Creare dati intermedi che verranno alzati di livello a un set di dati di Azure Machine Learning.

Ereditarietà: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Costruttore

PipelineOutputFileDataset(pipeline_data)

Parametri

pipeline_data: PipelineData

Necessario

PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.

pipeline_data: PipelineData

Necessario

PipelineData che rappresenta l'output intermedio che verrà promosso a un set di dati.

Metodi

as_direct	Impostare la modalità di utilizzo del set di dati su direct. In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati.
as_download	Impostare la modalità di utilizzo del set di dati da scaricare.
as_mount	Impostare la modalità di utilizzo del set di dati da montare.
parse_delimited_files	Trasformare il set di dati intermedio del file in un set di dati tabulare. Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio.
parse_parquet_files	Trasformare il set di dati intermedio del file in un set di dati tabulare. Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio.

as_direct

Impostare la modalità di utilizzo del set di dati su direct.

In questa modalità si otterrà l'ID del set di dati e nello script è possibile chiamare Dataset.get_by_id per recuperare il set di dati. run.input_datasets['{dataset_name}'] restituirà il set di dati.

as_direct()

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

PipelineOutputFileDataset

as_download

Impostare la modalità di utilizzo del set di dati da scaricare.

as_download(path_on_compute=None)

Parametri

path_on_compute: str

valore predefinito: None

Percorso nel calcolo in cui scaricare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

PipelineOutputFileDataset

as_mount

Impostare la modalità di utilizzo del set di dati da montare.

as_mount(path_on_compute=None)

Parametri

path_on_compute: str

valore predefinito: None

Percorso nel calcolo in cui montare il set di dati. Il valore predefinito è Nessuno, ovvero Azure Machine Learning sceglie automaticamente un percorso.

Restituisce

Oggetto PipelineOutputDataset modificato.

Tipo restituito

PipelineOutputFileDataset

parse_delimited_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file delimitati a cui punta l'output intermedio.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parametri

include_path: bool

valore predefinito: False

Valore booleano per mantenere le informazioni sul percorso come colonna nel set di dati. Il valore predefinito è False. Ciò è utile quando si leggono più file e si vuole sapere da quale file proviene un determinato record o per mantenere informazioni utili nel percorso del file.

separator: str

valore predefinito: ,

Separatore utilizzato per suddividere le colonne.

header: PromoteHeadersBehavior

valore predefinito: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controlla la modalità di innalzamento di livello delle intestazioni di colonna durante la lettura dai file. L'impostazione predefinita presuppone che tutti i file abbiano la stessa intestazione.

partition_format: str

valore predefinito: None

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.csv' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

file_extension: str

Necessario

Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.csv' quando il separatore è ',' e '.tsv' quando il separatore è tabulazioni e Nessuno in caso contrario. Se None viene passato, tutti i file verranno letti indipendentemente dalla relativa estensione (o dalla mancanza di estensione).

set_column_types: dict[str, DataType]

valore predefinito: None

Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo stringa. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.

quoted_line_breaks: bool

valore predefinito: False

Indica se gestire nuovi caratteri di riga tra virgolette. Questa opzione può influire sulle prestazioni.

Restituisce

Restituisce un dato intermedio che sarà un set di dati tabulare.

Tipo restituito

PipelineOutputTabularDataset

Commenti

Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.

parse_parquet_files

Trasformare il set di dati intermedio del file in un set di dati tabulare.

Il set di dati tabulare viene creato analizzando i file parquet a cui punta l'output intermedio.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parametri

include_path: bool

valore predefinito: False

partition_format: str

valore predefinito: None

Specificare il formato di partizione del percorso. Il valore predefinito è Nessuno. Le informazioni sulla partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea una colonna stringa e '{column_name:aa/MM/dd/HH/mm/ss}' crea una colonna datetime, dove 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora, minuto e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'.

file_extension: str

valore predefinito: .parquet

Estensione del file da leggere. Solo i file con questa estensione verranno letti dalla directory. Il valore predefinito è '.parquet'. Se questa opzione è impostata su Nessuno, tutti i file verranno letti indipendentemente dall'estensione (o dalla mancanza di estensione).

set_column_types: dict[str, DataType]

valore predefinito: None

Dizionario per impostare il tipo di dati della colonna, dove chiave è il nome della colonna e il valore è DataType. Le colonne non nel dizionario rimarranno di tipo caricato dal file parquet. Se si passa Nessuno, non verrà eseguita alcuna conversione. Le voci per le colonne non trovate nei dati di origine non genereranno un errore e verranno ignorate.

Restituisce

Restituisce un dato intermedio che sarà un set di dati tabulare.

Tipo restituito

PipelineOutputTabularDataset

Commenti

Questa trasformazione verrà applicata solo quando i dati intermedi vengono utilizzati come input del passaggio successivo. Non ha alcun effetto sull'output anche se viene passato all'output.

Condividi tramite

PipelineOutputFileDataset Classe

Costruttore

Parametri

Metodi

as_direct

Restituisce

Tipo restituito

as_download

Parametri

Restituisce

Tipo restituito

as_mount

Parametri

Restituisce

Tipo restituito

parse_delimited_files

Parametri

Restituisce

Tipo restituito

Commenti

parse_parquet_files

Parametri

Restituisce

Tipo restituito

Commenti

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive