Aggregator Klas
Hiermee definieert u een aggregatie op basis van opgegeven kolommen die worden geïdentificeerd met joinsleutels.
Constructor
Aggregator()
Opmerkingen
Aggregators worden doorgaans niet rechtstreeks geïnstantieerd. Geef in plaats daarvan het type aggregator op wanneer u een verrijker zoals het HolidayEnricher object gebruikt.
Afgeleide aggregators omvatten AggregatorAll, , AggregatorAvgAggregatorMax, , AggregatorMin. AggregatorTop
De process(env, customer_data, public_data, join_keys, debug)
methode voert de aggregatie uit.
Methoden
get_log_property |
Get log property tuple, None if no property. |
process |
Links customer_data met public_data op join_keys. Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names later. |
process_public_dataset |
Aggregatie uitvoeren op opgegeven openbare gegevenskolommen. |
get_log_property
Get log property tuple, None if no property.
get_log_property()
process
Links customer_data met public_data op join_keys.
Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names later.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parameters
Name | Description |
---|---|
env
Vereist
|
De runtime-omgeving. |
customer_data
Vereist
|
De klantgegevens. |
public_data
Vereist
|
De openbare gegevens. |
join_keys
Vereist
|
Een lijst met joinsleutelparen. |
debug
Vereist
|
Geeft aan of foutopsporingsgegevens moeten worden afgedrukt. |
Retouren
Type | Description |
---|---|
Een tuple van ( een nieuw exemplaar van klasse CustomerData, ongewijzigd exemplaar van PublicData, een nieuw gekoppeld exemplaar van klasse CustomerData, joinsleutels (lijst met tuple)) |
process_public_dataset
Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parameters
Name | Description |
---|---|
env
Vereist
|
De runtime-omgeving. |
_public_dataset
Vereist
|
Een gegevensframe voor openbare gegevenssets. |
cols
|
Een lijst met kolomnamen die moeten worden opgehaald. Default value: None
|
join_keys
|
Een lijst met joinsleutels die moeten worden gebruikt. Default value: []
|
Retouren
Type | Description |
---|---|
Een nieuw DataFrame van de openbare gegevensset. |
Kenmerken
should_direct_join
should_direct_join = True