OutputTabularDatasetConfig Classe

Référence

Représente comment copier la sortie d’une exécution et la promouvoir en tant que TabularDataset.

Initialisez un OutputTabularDatasetConfig.

Héritage: OutputDatasetConfig

OutputTabularDatasetConfig

Constructeur

OutputTabularDatasetConfig(**kwargs)

Remarques

Vous ne devez pas appeler ce constructeur directement, mais vous devez à la place créer un OutputFileDatasetConfig, puis appeler les méthodes read_ * correspondantes pour le convertir en OutputTabularDatasetConfig.

La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence réside dans le fait que le jeu données créé sera un TabularDataset contenant toutes les transformations spécifiées.

Méthodes

as_input	Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_mount	Définit la sortie en mode « mount ». En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.
as_upload	Définit la sortie en mode « upload ». En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.
drop_columns	Supprime les colonnes spécifiées du jeu de données.
keep_columns	Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données.
random_split	Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié. Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

as_input

Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_input(name=None)

Paramètres

Nom	Description
name Obligatoire	str Nom de l’entrée spécifique à la série.

Retours

Type	Description
DatasetConsumptionConfig	Instance de DatasetConsumptionConfig décrivant la façon de fournir les données d’entrée.

as_mount

Définit la sortie en mode « mount ».

En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.

as_mount()

Retours

Type	Description
OutputTabularDatasetConfig	Instance OutputTabularDatasetConfig dont le mode est défini sur mount.

as_upload

Définit la sortie en mode « upload ».

En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.

as_upload(overwrite=False, source_globs=None)

Paramètres

Nom	Description
overwrite Obligatoire	bool Indique s’il est nécessaire de remplacer les fichiers qui existent déjà à l’emplacement de destination.
source_globs Obligatoire	list[str] Modèles Glob utilisés pour filtrer les fichiers à charger.

Retours

Type	Description
OutputTabularDatasetConfig	Instance de OutputTabularDatasetConfig pour laquelle le mode « upload » est défini.

drop_columns

Supprime les colonnes spécifiées du jeu de données.

drop_columns(columns)

Paramètres

Nom	Description
columns Obligatoire	Union[str, list[str]] Nom ou liste de noms des colonnes à supprimer.

Retours

Type	Description
PipelineOutputTabularDataset	Instance de OutputTabularDatasetConfig avec les colonnes à supprimer.

keep_columns

Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données.

keep_columns(columns)

Paramètres

Nom	Description
columns Obligatoire	Union[str, list[str]] Nom ou liste de noms des colonnes à conserver.

Retours

Type	Description
PipelineOutputTabularDataset	Instance de OutputTabularDatasetConfig avec les colonnes à conserver.

random_split

Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié.

Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

random_split(percentage, seed=None)

Paramètres

Nom	Description
percentage Obligatoire	float Pourcentage approximatif à utiliser pour le découpage du jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0.
seed Obligatoire	int Valeur initiale facultative à utiliser pour le générateur aléatoire.

Retours

Type	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le découpage.

Partager via

OutputTabularDatasetConfig Classe

Constructeur

Remarques

Méthodes

as_input

Paramètres

Retours

as_mount

Retours

as_upload

Paramètres

Retours

drop_columns

Paramètres

Retours

keep_columns

Paramètres

Retours

random_split

Paramètres

Retours

Commentaires

Ressources supplémentaires