Partager via


TransformationMixin Classe

Cette classe fournit des fonctionnalités de transformation aux jeux de données de sortie.

Héritage
builtins.object
TransformationMixin

Constructeur

TransformationMixin()

Méthodes

read_delimited_files

Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers délimités.

read_parquet_files

Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers parquet.

Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.

read_delimited_files

Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers délimités.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Paramètres

include_path
bool
Obligatoire

Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

separator
str
Obligatoire

Séparateur utilisé pour fractionner les colonnes.

header
PromoteHeadersBehavior
Obligatoire

Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers. La valeur par défaut suppose que tous les fichiers ont le même en-tête.

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

path_glob
str
Obligatoire

Modèle de type Glob pour filtrer les fichiers qui sont lus en tant que fichiers délimités. Si la valeur est None, tous les fichiers sont lus en tant que fichiers délimités.

Glob est une expansion du modèle de nom de chemin de style Unix : https://docs.python.org/3/library/glob.html

ex)

  • *.csv -> sélectionne les fichiers avec l’extension de fichier .csv
  • test_.csv* -> sélectionne les fichiers avec des noms de fichiers commençant par test_ et ayant l’extension de fichier .csv
  • /myrootdir/project_one///.txt* -> sélectionne les fichiers qui se trouvent à une profondeur de deux sous-répertoires dans /myrootdir/project_one/ et ont l’extension de fichier .txt

Remarque : L’utilisation du modèle **** dans les grandes arborescences de répertoires peut consommer un temps excessif. En général, pour les grandes arborescences de répertoires, définir un modèle Glob plus spécifique peut augmenter les performances.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type string. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.

Retours

Instance OutputTabularDatasetConfig de avec des instructions sur la façon de convertir la sortie en TabularDataset.

Type de retour

read_parquet_files

Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers parquet.

Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Paramètres

include_path
bool
Obligatoire

Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.

partition_format
str
Obligatoire

Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».

path_glob
str
Obligatoire

Modèle de type Glob pour filtrer les fichiers qui sont lus en tant que fichiers Parquet. Si la valeur est None, tous les fichiers sont lus en tant que fichiers parquet.

Glob est une expansion du modèle de nom de chemin de style Unix : https://docs.python.org/3/library/glob.html

ex)

  • *.parquet -> sélectionne les fichiers avec l’extension de fichier .parquet
  • test_.parquet* -> sélectionne les fichiers avec des noms de fichiers commençant par test_ et ayant l’extension de fichier .parquet
  • /myrootdir/project_one///.parquet* -> sélectionne les fichiers qui se trouvent à une profondeur de deux sous-répertoires dans /myrootdir/project_one/ et ont l’extension de fichier .parquet

Remarque : L’utilisation du modèle **** dans les grandes arborescences de répertoires peut consommer un temps excessif. En général, pour les grandes arborescences de répertoires, définir un modèle Glob plus spécifique peut augmenter les performances.

set_column_types
dict[str, DataType]
Obligatoire

Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type chargé à partir du fichier parquet. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.

Retours

Instance OutputTabularDatasetConfig de avec des instructions sur la façon de convertir la sortie en TabularDataset.

Type de retour