Sdílet prostřednictvím


Aggregator Třída

Definuje agregaci pro zadané sloupce identifikované pomocí klíčů spojení.

Dědičnost
builtins.object
Aggregator

Konstruktor

Aggregator()

Poznámky

Agregátory se obvykle nedají vytvořit přímo. Místo toho zadejte typ agregátoru při použití rozšiřujícího nástroje, jako HolidayEnricher je například objekt .

Mezi odvozené agregátory patří AggregatorAll, , AggregatorMaxAggregatorAvg, , AggregatorMin. AggregatorTop

Metoda process(env, customer_data, public_data, join_keys, debug) provede agregaci.

Metody

get_log_property

Získejte řazenou kolekci členů vlastnosti protokolu, pokud žádná vlastnost není k dispozici.

process

Levé customer_data spojení s public_data na join_keys.

Přetáhněte všechny sloupce v join_keys a všechny sloupce, které jsou v seznamu to_be_cleaned_up_column_names potom.

process_public_dataset

Proveďte agregaci u zadaných veřejných sloupců dat.

get_log_property

Získejte řazenou kolekci členů vlastnosti protokolu, pokud žádná vlastnost není k dispozici.

get_log_property()

process

Levé customer_data spojení s public_data na join_keys.

Přetáhněte všechny sloupce v join_keys a všechny sloupce, které jsou v seznamu to_be_cleaned_up_column_names potom.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametry

Name Description
env
Vyžadováno

Prostředí modulu runtime.

customer_data
Vyžadováno

Zákaznická data.

public_data
Vyžadováno

Veřejná data.

join_keys
Vyžadováno

Seznam párů klíčů spojení.

debug
Vyžadováno

Určuje, jestli se mají vytisknout informace o ladění.

Návraty

Typ Description

Řazená kolekce členů ( nová instance třídy CustomerData, nezměněná instance PublicData, nová připojená instance třídy CustomerData, klíče spojení (seznam řazených kolekcí členů))

process_public_dataset

Proveďte agregaci u zadaných veřejných sloupců dat.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametry

Name Description
env
Vyžadováno

Prostředí modulu runtime.

_public_dataset
Vyžadováno

Datový rámec veřejné datové sady.

cols

Seznam názvů sloupců, které se mají načíst.

Default value: None
join_keys

Seznam klíčů pro spojení, které se mají použít.

Default value: []

Návraty

Typ Description

Nový datový rámec veřejné datové sady.

Atributy

should_direct_join

should_direct_join = True