hll_sketch_agg
összesítő függvény
A következőkre vonatkozik: Databricks SQL
Databricks Runtime 13.3 LTS és újabb
Ez a függvény a HyperLogLog algoritmust használja az adott oszlopban található egyedi értékek számának valószínűségi közelítésének megszámlálására, és az eredményt egy vázlatpufferként ismert bináris ábrázolásként adja ki. Ez a bináris ábrázolás alkalmas az adatmegőrzésre.
A lekérdezések az eredményként kapott pufferekkel hozzávetőleges egyedi számokat számíthatnak ki a hll_sketch_estimate függvénnyel.
A hll_union és a hll_union_agg függvények a vázlatokat úgy is kombinálhatják, hogy bemenetként felhasználják és egyesítik ezeket a puffereket.
Az implementáció az Apache Datasketches kódtárat használja. További információt a HLL-ben talál.
hll_sketch_agg ( expr [, lgConfigK ] )
Ez a függvény ablakfüggvényként is meghívható a OVER
záradék használatával.
-
expr
: Olyan kifejezés, amelynek típusaINT
,BIGINT
,STRING
vagyBINARY
amely alapján egyedi számlálás történik. -
lgConfigK
: VálaszthatóINT
konstans 4 és 21 között, beleértve az alapértelmezett 12-es értéket. A K 2-es alapú logaritmusa, ahol K a skicc vödreinek vagy rekeszeinek száma.
A rendszer figyelmen kívül hagy minden NULL
a expr
.
Egy puffer, amely a HyperLogLog-vázlatot tartalmazza, amely az összesítési csoport összes bemeneti értékének felhasználása és összesítése eredményeként lett kiszámítva.
> SELECT hll_sketch_estimate(hll_sketch_agg(col, 12))
FROM VALUES (1), (1), (2), (2), (3) tab(col);
3
> SELECT hll_sketch_estimate(hll_sketch_agg(col))
FROM VALUES (1), (1), (2), (2), (3) tab(col);
3