Partager via


OutputTabularDatasetConfig Classe

Représente comment copier la sortie d’une exécution et la promouvoir en tant que TabularDataset.

Initialisez un OutputTabularDatasetConfig.

Héritage
OutputTabularDatasetConfig

Constructeur

OutputTabularDatasetConfig(**kwargs)

Remarques

Vous ne devez pas appeler ce constructeur directement, mais vous devez à la place créer un OutputFileDatasetConfig, puis appeler les méthodes read_ * correspondantes pour le convertir en OutputTabularDatasetConfig.

La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence réside dans le fait que le jeu données créé sera un TabularDataset contenant toutes les transformations spécifiées.

Méthodes

as_input

Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_mount

Définit la sortie en mode « mount ».

En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.

as_upload

Définit la sortie en mode « upload ».

En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.

drop_columns

Supprime les colonnes spécifiées du jeu de données.

keep_columns

Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données.

random_split

Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié.

Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

as_input

Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_input(name=None)

Paramètres

Nom Description
name
Obligatoire
str

Nom de l’entrée spécifique à la série.

Retours

Type Description

Instance de DatasetConsumptionConfig décrivant la façon de fournir les données d’entrée.

as_mount

Définit la sortie en mode « mount ».

En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.

as_mount()

Retours

Type Description

Instance OutputTabularDatasetConfig dont le mode est défini sur mount.

as_upload

Définit la sortie en mode « upload ».

En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.

as_upload(overwrite=False, source_globs=None)

Paramètres

Nom Description
overwrite
Obligatoire

Indique s’il est nécessaire de remplacer les fichiers qui existent déjà à l’emplacement de destination.

source_globs
Obligatoire

Modèles Glob utilisés pour filtrer les fichiers à charger.

Retours

Type Description

Instance de OutputTabularDatasetConfig pour laquelle le mode « upload » est défini.

drop_columns

Supprime les colonnes spécifiées du jeu de données.

drop_columns(columns)

Paramètres

Nom Description
columns
Obligatoire

Nom ou liste de noms des colonnes à supprimer.

Retours

Type Description

Instance de OutputTabularDatasetConfig avec les colonnes à supprimer.

keep_columns

Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données.

keep_columns(columns)

Paramètres

Nom Description
columns
Obligatoire

Nom ou liste de noms des colonnes à conserver.

Retours

Type Description

Instance de OutputTabularDatasetConfig avec les colonnes à conserver.

random_split

Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié.

Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

random_split(percentage, seed=None)

Paramètres

Nom Description
percentage
Obligatoire

Pourcentage approximatif à utiliser pour le découpage du jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0.

seed
Obligatoire
int

Valeur initiale facultative à utiliser pour le générateur aléatoire.

Retours

Type Description

Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le découpage.