TransformationMixin Klas

Referentie

Deze klasse biedt transformatiemogelijkheden voor uitvoergegevenssets.

Overname: builtins.object

TransformationMixin

Constructor

TransformationMixin()

Methoden

read_delimited_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen.

read_parquet_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen.

De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid.

read_delimited_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als bestanden met scheidingstekens te lezen.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parameters

include_path: bool

Vereist

Booleaanse waarde om padgegevens als kolom in de gegevensset te bewaren. Standaard ingesteld op False. Dit is handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is of nuttige informatie in het bestandspad bewaren.

separator: str

Vereist

Het scheidingsteken dat wordt gebruikt om kolommen te splitsen.

header: PromoteHeadersBehavior

Vereist

Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. Standaard wordt ervan uitgegaan dat alle bestanden dezelfde header hebben.

partition_format: str

Vereist

Geef de partitieindeling van het pad op. De standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Met het opmaakonderdeel {column_name} wordt een tekenreekskolom gemaakt en met {column_name:yyyy/MM/dd/HH/mm/ss} wordt de datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur, minuut en seconde te extraheren voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, gegeven het pad '.. /Accounts/2019/01/data.parquet' waarbij de partitie zich bevindt op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

path_glob: str

Vereist

Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als bestanden met scheidingstekens. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als bestanden met scheidingstekens.

Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html

ex)

*.csv :> selecteert bestanden met .csv bestandsextensie
test_.csv* -> selecteert bestanden met bestandsnamen die beginnen met test_ en .csv bestandsextensie heeft
/myrootdir/project_one///.txt* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en .txt bestandsextensie hebben

Opmerking: het gebruik van het ****-patroon in grote mapstructuren kan een buitensporige hoeveelheid tijd in beslag nemen. Over het algemeen kan voor grote mapstructuren specifieker zijn in het glob-patroon de prestaties verbeteren.

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type tekenreeks. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.

Retourtype

OutputTabularDatasetConfig

read_parquet_files

Transformeer de uitvoergegevensset naar een tabellaire gegevensset door alle uitvoer als Parquet-bestanden te lezen.

De tabellaire gegevensset wordt gemaakt door de parquet-bestanden te parseren die door de tussenliggende uitvoer worden aangeduid.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parameters

include_path: bool

Vereist

partition_format: str

Vereist

path_glob: str

Vereist

Een glob-achtig patroon voor het filteren van bestanden die worden gelezen als Parquet-bestanden. Als deze optie is ingesteld op Geen, worden alle bestanden gelezen als Parquet-bestanden.

Glob is een uitbreiding van het padnaampatroon in Unix-stijl: https://docs.python.org/3/library/glob.html

ex)

*.parquet -> selecteert bestanden met de bestandsextensie .parquet
test_.parquet* -> selecteert bestanden met bestandsnamen die beginnen met test_ en de bestandsextensie .parquet heeft
/myrootdir/project_one///. parquet* -> selecteert bestanden die twee submappen diep in /myrootdir/project_one/ zijn en de bestandsextensie .parquet hebben

set_column_types: dict[str, DataType]

Vereist

Een woordenlijst voor het instellen van het kolomgegevenstype, waarbij sleutel kolomnaam en waarde is DataType. Kolommen die niet in de woordenlijst staan, blijven van het type dat uit het Parquet-bestand is geladen. Als u Geen doorgeeft, resulteert dit in geen conversies. Vermeldingen voor kolommen die niet in de brongegevens worden gevonden, veroorzaken geen fout en worden genegeerd.

Retouren

Een OutputTabularDatasetConfig exemplaar met instructies voor het converteren van de uitvoer naar een TabularDataset.

Retourtype

OutputTabularDatasetConfig

Delen via

TransformationMixin Klas

Constructor

Methoden

read_delimited_files

Parameters

Retouren

Retourtype

read_parquet_files

Parameters

Retouren

Retourtype

Feedback

Feedback

Aanvullende resources