OutputTabularDatasetConfig Classe
Rappresentare come copiare l'output di un'esecuzione e essere promosso come TabularDataset.
Inizializzare un outputTabularDatasetConfig.
- Ereditarietà
-
OutputTabularDatasetConfig
Costruttore
OutputTabularDatasetConfig(**kwargs)
Commenti
Non è consigliabile chiamare direttamente questo costruttore, ma creare un outputFileDatasetConfig e quindi chiamare i metodi di read_* corrispondenti per convertirlo in outputTabularDatasetConfig.
Il modo in cui l'output verrà copiato nella destinazione per un outputTabularDatasetConfig è uguale a outputFileDatasetConfig. La differenza tra di esse è che il set di dati creato sarà un tabulareDataset contenente tutte le trasformazioni specificate.
Metodi
as_input |
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline. |
as_mount |
Impostare la modalità dell'output su montaggio. Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso. |
as_upload |
Impostare la modalità dell'output da caricare. Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata. |
drop_columns |
Eliminare le colonne specificate dal set di dati. |
keep_columns |
Mantenere le colonne specificate e eliminare tutte le altre dal set di dati. |
random_split |
Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata. Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi. |
as_input
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.
as_input(name=None)
Parametri
Nome | Descrizione |
---|---|
name
Necessario
|
Nome dell'input specifico dell'esecuzione. |
Restituisce
Tipo | Descrizione |
---|---|
DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input. |
as_mount
Impostare la modalità dell'output su montaggio.
Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.
as_mount()
Restituisce
Tipo | Descrizione |
---|---|
OutputTabularDatasetConfig Istanza con modalità impostata su montaggio. |
as_upload
Impostare la modalità dell'output da caricare.
Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.
as_upload(overwrite=False, source_globs=None)
Parametri
Nome | Descrizione |
---|---|
overwrite
Necessario
|
Se sovrascrivere i file già presenti nella destinazione. |
source_globs
Necessario
|
Modelli Glob usati per filtrare i file che verranno caricati. |
Restituisce
Tipo | Descrizione |
---|---|
OutputTabularDatasetConfig Istanza con modalità impostata per il caricamento. |
drop_columns
Eliminare le colonne specificate dal set di dati.
drop_columns(columns)
Parametri
Nome | Descrizione |
---|---|
columns
Necessario
|
Nome o elenco di nomi da eliminare per le colonne. |
Restituisce
Tipo | Descrizione |
---|---|
OutputTabularDatasetConfig Istanza con cui eliminare le colonne. |
keep_columns
Mantenere le colonne specificate e eliminare tutte le altre dal set di dati.
keep_columns(columns)
Parametri
Nome | Descrizione |
---|---|
columns
Necessario
|
Nome o elenco di nomi per le colonne da mantenere. |
Restituisce
Tipo | Descrizione |
---|---|
OutputTabularDatasetConfig Istanza con cui mantenere le colonne. |
random_split
Suddividere i record nel set di dati in due parti in modo casuale e approssimativamente in base alla percentuale specificata.
Le configurazioni di output risultanti avranno i nomi modificati, la prima avrà _1 accodato al nome e la seconda avrà _2 accodato al nome. Se causerà una collisione con un nome o si vuole specificare un nome personalizzato, impostare manualmente i nomi.
random_split(percentage, seed=None)
Parametri
Nome | Descrizione |
---|---|
percentage
Necessario
|
Percentuale approssimativa per dividere il set di dati. Questo deve essere un numero compreso tra 0,0 e 1,0. |
seed
Necessario
|
Inizializzazione facoltativa da usare per il generatore casuale. |
Restituisce
Tipo | Descrizione |
---|---|
Restituisce una tupla di due oggetti OutputTabularDatasetConfig che rappresentano i due set di dati dopo la suddivisione. |