Olvasás angol nyelven

Megosztás a következőn keresztül:


hll_sketch_agg összesítő függvény

A következőkre vonatkozik:igen van megjelölve Databricks SQL igen van megjelölve Databricks Runtime 13.3 LTS és újabb

Ez a függvény a HyperLogLog algoritmust használja az adott oszlopban található egyedi értékek számának valószínűségi közelítésének megszámlálására, és az eredményt egy vázlatpufferként ismert bináris ábrázolásként adja ki. Ez a bináris ábrázolás alkalmas az adatmegőrzésre.

A lekérdezések az eredményként kapott pufferekkel hozzávetőleges egyedi számokat számíthatnak ki a hll_sketch_estimate függvénnyel.

A hll_union és a hll_union_agg függvények a vázlatokat úgy is kombinálhatják, hogy bemenetként felhasználják és egyesítik ezeket a puffereket.

Az implementáció az Apache Datasketches kódtárat használja. További információt a HLL-ben talál.

Syntax

hll_sketch_agg ( expr [, lgConfigK ] )

Ez a függvény ablakfüggvényként is meghívható a OVER záradék használatával.

Argumentumok

  • expr: Olyan kifejezés, amelynek típusa INT, BIGINT, STRINGvagy BINARY amely alapján egyedi számlálás történik.
  • lgConfigK: Választható INT konstans 4 és 21 között, beleértve az alapértelmezett 12-es értéket. A K 2-es alapú logaritmusa, ahol K a skicc vödreinek vagy rekeszeinek száma.

A rendszer figyelmen kívül hagy minden NULL a expr.

Visszavételek

Egy puffer, amely a HyperLogLog-vázlatot tartalmazza, amely az összesítési csoport összes bemeneti értékének felhasználása és összesítése eredményeként lett kiszámítva.

Példák

> SELECT hll_sketch_estimate(hll_sketch_agg(col, 12))
    FROM VALUES (1), (1), (2), (2), (3) tab(col);
  3

> SELECT hll_sketch_estimate(hll_sketch_agg(col))
    FROM VALUES (1), (1), (2), (2), (3) tab(col);
  3