Delen via


TransformationMixin Klas

Deze klasse biedt transformatiemogelijkheden voor uitvoergegevenssets.

Overname
builtins.object
TransformationMixin

Constructor

TransformationMixin()

Methoden

read_delimited_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen.

read_parquet_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen.

De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid.

read_delimited_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parameters

include_path
bool
Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad bewaren.

separator
str
Vereist

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header
PromoteHeadersBehavior
Vereist

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het opmaakonderdeel {column_name} wordt een tekenreekskolom gemaakt en met {column_name:yyyy/MM/dd/HH/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.parquet' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

path_glob
str
Vereist

Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als bestanden met scheidingstekens. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als bestanden met scheidingstekens.

Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html

ex)

  • *.csv :> selecteert bestanden met .csv bestandsextensie
  • test_.csv* -> selecteert bestanden met bestandsnamen die beginnen met test_ en .csv bestandsextensie heeft
  • /myrootdir/project_one///.txt* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en .txt bestandsextensie hebben

Opmerking: het gebruik van het ****-patroon in grote mapstructuren kan een buitensporige hoeveelheid tijd in beslag nemen. Over het algemeen kan voor grote mapstructuren specifieker zijn in het glob-patroon de prestaties verbeteren.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.

Retourtype

read_parquet_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen.

De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parameters

include_path
bool
Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad bewaren.

partition_format
str
Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het opmaakonderdeel {column_name} wordt een tekenreekskolom gemaakt en met {column_name:yyyy/MM/dd/HH/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.parquet' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

path_glob
str
Vereist

Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als Parquet-bestanden. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als Parquet-bestanden.

Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html

ex)

  • *.parquet -> selecteert bestanden met de bestandsextensie .parquet
  • test_.parquet* -> selecteert bestanden met bestandsnamen die beginnen met test_ en de bestandsextensie .parquet heeft
  • /myrootdir/project_one///. parquet* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en de bestandsextensie .parquet hebben

Opmerking: het gebruik van het ****-patroon in grote mapstructuren kan een buitensporige hoeveelheid tijd in beslag nemen. Over het algemeen kan voor grote mapstructuren specifieker zijn in het glob-patroon de prestaties verbeteren.

set_column_types
dict[str, DataType]
Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.

Retourtype