TransformationMixin Klas
Deze klasse biedt transformatiemogelijkheden voor uitvoergegevenssets.
- Overname
-
builtins.objectTransformationMixin
Constructor
TransformationMixin()
Methoden
read_delimited_files |
Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen. |
read_parquet_files |
Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen. De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid. |
read_delimited_files
Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Parameters
- include_path
- bool
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad bewaren.
- header
- PromoteHeadersBehavior
Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.
- partition_format
- str
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het opmaakonderdeel {column_name} wordt een tekenreekskolom gemaakt en met {column_name:yyyy/MM/dd/HH/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.parquet' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.
- path_glob
- str
Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als bestanden met scheidingstekens. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als bestanden met scheidingstekens.
Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html
ex)
- *.csv :> selecteert bestanden met .csv bestandsextensie
- test_.csv* -> selecteert bestanden met bestandsnamen die beginnen met test_ en .csv bestandsextensie heeft
- /myrootdir/project_one///.txt* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en .txt bestandsextensie hebben
Opmerking: het gebruik van het ****-patroon in grote mapstructuren kan een buitensporige hoeveelheid tijd in beslag nemen. Over het algemeen kan voor grote mapstructuren specifieker zijn in het glob-patroon de prestaties verbeteren.
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.
Retouren
Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.
Retourtype
read_parquet_files
Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen.
De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Parameters
- include_path
- bool
Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad bewaren.
- partition_format
- str
Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het opmaakonderdeel {column_name} wordt een tekenreekskolom gemaakt en met {column_name:yyyy/MM/dd/HH/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.parquet' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.
- path_glob
- str
Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als Parquet-bestanden. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als Parquet-bestanden.
Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html
ex)
- *.parquet -> selecteert bestanden met de bestandsextensie .parquet
- test_.parquet* -> selecteert bestanden met bestandsnamen die beginnen met test_ en de bestandsextensie .parquet heeft
- /myrootdir/project_one///. parquet* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en de bestandsextensie .parquet hebben
Opmerking: het gebruik van het ****-patroon in grote mapstructuren kan een buitensporige hoeveelheid tijd in beslag nemen. Over het algemeen kan voor grote mapstructuren specifieker zijn in het glob-patroon de prestaties verbeteren.
Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.
Retouren
Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.
Retourtype
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor