Condividi tramite


OutputTabularDatasetConfig Classe

Rappresentare come copiare l'output di un'esecuzione e essere promosso come TabularDataset.

Inizializzare un outputTabularDatasetConfig.

Ereditarietà
OutputTabularDatasetConfig

Costruttore

OutputTabularDatasetConfig(**kwargs)

Commenti

Non è consigliabile chiamare direttamente questo costruttore, ma creare un outputFileDatasetConfig e quindi chiamare i metodi di read_* corrispondenti per convertirlo in outputTabularDatasetConfig.

Il modo in cui l'output verrà copiato nella destinazione per un outputTabularDatasetConfig è uguale a outputFileDatasetConfig. La differenza tra di esse è che il set di dati creato sarà un tabulareDataset contenente tutte le trasformazioni specificate.

Metodi

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

drop_columns

Eliminare le colonne specificate dal set di dati.

keep_columns

Mantenere le colonne specificate e eliminare tutte le altre dal set di dati.

random_split

Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata.

Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi.

as_input

Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.

as_input(name=None)

Parametri

Nome Descrizione
name
Necessario
str

Nome dell'input specifico dell'esecuzione.

Restituisce

Tipo Descrizione

DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input.

as_mount

Impostare la modalità dell'output su montaggio.

Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.

as_mount()

Restituisce

Tipo Descrizione

OutputTabularDatasetConfig Istanza con modalità impostata su montaggio.

as_upload

Impostare la modalità dell'output da caricare.

Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.

as_upload(overwrite=False, source_globs=None)

Parametri

Nome Descrizione
overwrite
Necessario

Se sovrascrivere i file già presenti nella destinazione.

source_globs
Necessario

Modelli Glob usati per filtrare i file che verranno caricati.

Restituisce

Tipo Descrizione

OutputTabularDatasetConfig Istanza con modalità impostata per il caricamento.

drop_columns

Eliminare le colonne specificate dal set di dati.

drop_columns(columns)

Parametri

Nome Descrizione
columns
Necessario

Nome o elenco di nomi da eliminare per le colonne.

Restituisce

Tipo Descrizione

OutputTabularDatasetConfig Istanza con cui eliminare le colonne.

keep_columns

Mantenere le colonne specificate e eliminare tutte le altre dal set di dati.

keep_columns(columns)

Parametri

Nome Descrizione
columns
Necessario

Nome o elenco di nomi per le colonne da mantenere.

Restituisce

Tipo Descrizione

OutputTabularDatasetConfig Istanza con cui mantenere le colonne.

random_split

Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata.

Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi.

random_split(percentage, seed=None)

Parametri

Nome Descrizione
percentage
Necessario

Percentuale approssimativa per dividere il set di dati. Questo deve essere un numero compreso tra 0,0 e 1,0.

seed
Necessario
int

Inizializzazione facoltativa da usare per il generatore casuale.

Restituisce

Tipo Descrizione

Restituisce una tupla di due oggetti OutputTabularDatasetConfig che rappresentano i due set di dati dopo la suddivisione.