OutputTabularDatasetConfig Classe

Riferimento

Rappresentare come copiare l'output di un'esecuzione e essere promosso come TabularDataset.

Inizializzare un outputTabularDatasetConfig.

Ereditarietà: OutputDatasetConfig

OutputTabularDatasetConfig

Costruttore

OutputTabularDatasetConfig(**kwargs)

Commenti

Non è consigliabile chiamare direttamente questo costruttore, ma creare un outputFileDatasetConfig e quindi chiamare i metodi di read_* corrispondenti per convertirlo in outputTabularDatasetConfig.

Il modo in cui l'output verrà copiato nella destinazione per un outputTabularDatasetConfig è uguale a outputFileDatasetConfig. La differenza tra di esse è che il set di dati creato sarà un tabulareDataset contenente tutte le trasformazioni specificate.

Metodi

as_input	Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.
as_mount	Impostare la modalità dell'output su montaggio. Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.
as_upload	Impostare la modalità dell'output da caricare. Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.
drop_columns	Eliminare le colonne specificate dal set di dati.
keep_columns	Mantenere le colonne specificate e eliminare tutte le altre dal set di dati.
random_split	Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata. Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi.

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_input(name=None)

Parametri

Nome	Descrizione
name Necessario	str Nome dell'input specifico dell'esecuzione.

Restituisce

Tipo	Descrizione
DatasetConsumptionConfig	DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_mount()

Restituisce

Tipo	Descrizione
OutputTabularDatasetConfig	OutputTabularDatasetConfig Istanza con modalità impostata su montaggio.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

as_upload(overwrite=False, source_globs=None)

Parametri

Nome	Descrizione
overwrite Necessario	bool Se sovrascrivere i file già presenti nella destinazione.
source_globs Necessario	list[str] Modelli Glob usati per filtrare i file che verranno caricati.

Restituisce

Tipo	Descrizione
OutputTabularDatasetConfig	OutputTabularDatasetConfig Istanza con modalità impostata per il caricamento.

drop_columns

Eliminare le colonne specificate dal set di dati.

drop_columns(columns)

Parametri

Nome	Descrizione
columns Necessario	Union[str, list[str]] Nome o elenco di nomi da eliminare per le colonne.

Restituisce

Tipo	Descrizione
PipelineOutputTabularDataset	OutputTabularDatasetConfig Istanza con cui eliminare le colonne.

keep_columns

Mantenere le colonne specificate e eliminare tutte le altre dal set di dati.

keep_columns(columns)

Parametri

Nome	Descrizione
columns Necessario	Union[str, list[str]] Nome o elenco di nomi per le colonne da mantenere.

Restituisce

Tipo	Descrizione
PipelineOutputTabularDataset	OutputTabularDatasetConfig Istanza con cui mantenere le colonne.

random_split

Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata.

Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi.

random_split(percentage, seed=None)

Parametri

Nome	Descrizione
percentage Necessario	float Percentuale approssimativa per dividere il set di dati. Questo deve essere un numero compreso tra 0,0 e 1,0.
seed Necessario	int Inizializzazione facoltativa da usare per il generatore casuale.

Restituisce

Tipo	Descrizione
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Restituisce una tupla di due oggetti OutputTabularDatasetConfig che rappresentano i due set di dati dopo la suddivisione.

Condividi tramite

OutputTabularDatasetConfig Classe

Costruttore

Commenti

Metodi

as_input

Parametri

Restituisce

as_mount

Restituisce

as_upload

Parametri

Restituisce

drop_columns

Parametri

Restituisce

keep_columns

Parametri

Restituisce

random_split

Parametri

Restituisce

Commenti e suggerimenti

Risorse aggiuntive