Delen via


Aggregator Klas

Hiermee definieert u een aggregatie op basis van opgegeven kolommen die worden geïdentificeerd met joinsleutels.

Constructor

Aggregator()

Opmerkingen

Aggregators worden doorgaans niet rechtstreeks geïnstantieerd. Geef in plaats daarvan het type aggregator op wanneer u een verrijker zoals het HolidayEnricher object gebruikt.

Afgeleide aggregators omvatten AggregatorAll, , AggregatorAvgAggregatorMax, , AggregatorMin. AggregatorTop

De process(env, customer_data, public_data, join_keys, debug) methode voert de aggregatie uit.

Methoden

get_log_property

Get log property tuple, None if no property.

process

Links customer_data met public_data op join_keys.

Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names later.

process_public_dataset

Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.

get_log_property

Get log property tuple, None if no property.

get_log_property()

process

Links customer_data met public_data op join_keys.

Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names later.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parameters

Name Description
env
Vereist

De runtime-omgeving.

customer_data
Vereist

De klantgegevens.

public_data
Vereist

De openbare gegevens.

join_keys
Vereist

Een lijst met joinsleutelparen.

debug
Vereist

Geeft aan of foutopsporingsgegevens moeten worden afgedrukt.

Retouren

Type Description

Een tuple van ( een nieuw exemplaar van klasse CustomerData, ongewijzigd exemplaar van PublicData, een nieuw gekoppeld exemplaar van klasse CustomerData, joinsleutels (lijst met tuple))

process_public_dataset

Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parameters

Name Description
env
Vereist

De runtime-omgeving.

_public_dataset
Vereist

Een gegevensframe voor openbare gegevenssets.

cols

Een lijst met kolomnamen die moeten worden opgehaald.

Default value: None
join_keys

Een lijst met joinsleutels die moeten worden gebruikt.

Default value: []

Retouren

Type Description

Een nieuw DataFrame van de openbare gegevensset.

Kenmerken

should_direct_join

should_direct_join = True