TransformationMixin Classe
Cette classe fournit des fonctionnalités de transformation aux jeux de données de sortie.
- Héritage
-
builtins.objectTransformationMixin
Constructeur
TransformationMixin()
Méthodes
read_delimited_files |
Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers délimités. |
read_parquet_files |
Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers parquet. Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire. |
read_delimited_files
Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers délimités.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Paramètres
- include_path
- bool
Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.
- header
- PromoteHeadersBehavior
Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers. La valeur par défaut suppose que tous les fichiers ont le même en-tête.
- partition_format
- str
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».
- path_glob
- str
Modèle de type Glob pour filtrer les fichiers qui sont lus en tant que fichiers délimités. Si la valeur est None, tous les fichiers sont lus en tant que fichiers délimités.
Glob est une expansion du modèle de nom de chemin de style Unix : https://docs.python.org/3/library/glob.html
ex)
- *.csv -> sélectionne les fichiers avec l’extension de fichier .csv
- test_.csv* -> sélectionne les fichiers avec des noms de fichiers commençant par test_ et ayant l’extension de fichier .csv
- /myrootdir/project_one///.txt* -> sélectionne les fichiers qui se trouvent à une profondeur de deux sous-répertoires dans /myrootdir/project_one/ et ont l’extension de fichier .txt
Remarque : L’utilisation du modèle **** dans les grandes arborescences de répertoires peut consommer un temps excessif. En général, pour les grandes arborescences de répertoires, définir un modèle Glob plus spécifique peut augmenter les performances.
Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type string. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.
Retours
Instance OutputTabularDatasetConfig de avec des instructions sur la façon de convertir la sortie en TabularDataset.
Type de retour
read_parquet_files
Transformer le jeu de données de sortie en un jeu de données tabulaire en lisant l’ensemble de la sortie sous forme de fichiers parquet.
Le jeu de données tabulaire est créé en analysant le ou les fichiers parquet sur lesquels pointe la sortie intermédiaire.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Paramètres
- include_path
- bool
Valeur booléenne pour conserver les informations de chemin sous forme de colonne dans le jeu de données. Valeur par défaut False. Cela est utile lors de la lecture de plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier ou pour conserver des informations utiles dans le chemin du fichier.
- partition_format
- str
Spécifie le format de partition du chemin. La valeur par défaut est None. Les informations de partition de chaque chemin sont extraites en colonnes en fonction du format spécifié. La partie de format « {column_name} » crée une colonne de chaîne, et « {column_name:yyyy/MM/dd/HH/mm/ss} » crée une colonne DateHeure, où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, les minutes et les secondes pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin « ../Accounts/2019/01/01/data.parquet » où la partition se fait par nom de service et par heure, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crée une colonne de chaîne « Department » avec la valeur « Accounts » et une colonne DateHeure « PartitionDate » avec la valeur « 2019-01-01 ».
- path_glob
- str
Modèle de type Glob pour filtrer les fichiers qui sont lus en tant que fichiers Parquet. Si la valeur est None, tous les fichiers sont lus en tant que fichiers parquet.
Glob est une expansion du modèle de nom de chemin de style Unix : https://docs.python.org/3/library/glob.html
ex)
- *.parquet -> sélectionne les fichiers avec l’extension de fichier .parquet
- test_.parquet* -> sélectionne les fichiers avec des noms de fichiers commençant par test_ et ayant l’extension de fichier .parquet
- /myrootdir/project_one///.parquet* -> sélectionne les fichiers qui se trouvent à une profondeur de deux sous-répertoires dans /myrootdir/project_one/ et ont l’extension de fichier .parquet
Remarque : L’utilisation du modèle **** dans les grandes arborescences de répertoires peut consommer un temps excessif. En général, pour les grandes arborescences de répertoires, définir un modèle Glob plus spécifique peut augmenter les performances.
Dictionnaire pour définir le type de données de la colonne, dans lequel la clé est le nom de la colonne et la valeur est DataType. Les colonnes qui ne figurent pas dans le dictionnaire restent de type chargé à partir du fichier parquet. La transmission de la valeur None n’entraînera aucune conversion. Les entrées des colonnes introuvables dans les données sources ne provoquent pas d’erreur et seront ignorées.
Retours
Instance OutputTabularDatasetConfig de avec des instructions sur la façon de convertir la sortie en TabularDataset.
Type de retour
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour