hll_merge() (összesítő függvény)

Cikk
01/23/2024

A HLL-eredményeket egyetlen HLL-értékbe egyesíti a csoporton belül.

Megjegyzés

Ezt a függvényt az summarize operátorral együtt használjuk.

További információkért lásd a mögöttes algoritmust (HyperLogLog) és a becslés pontosságát.

Fontos

A hll(), a hll_if() és a hll_merge() eredményei tárolhatók és később lekérhetők. Létrehozhat például egy napi egyedi felhasználói összegzést, amely aztán a heti számok kiszámítására használható. Az eredmények pontos bináris ábrázolása azonban idővel változhat. Nem garantálható, hogy ezek a függvények azonos eredményeket adnak az azonos bemenetekhez, ezért nem javasoljuk, hogy ezekre támaszkodjon.

Syntax

hll_merge(hll)

További információ a szintaxis konvenciókról.

Paraméterek

Név	Típus	Kötelező	Leírás
hll	`string`	✔️	Az egyesítendő HLL-értékeket tartalmazó oszlopnév.

Válaszok

A függvény a hll egyesített HLL-értékeit adja vissza a csoporton belül.

Tipp

A dcount_hll függvénnyel számítsa ki a hll() és adcount hll_merge() összesítő függvényeket.

Példa

Az alábbi példa egy csoport HLL-eredményeit mutatja be egyetlen HLL-értékbe egyesítve.

A lekérdezés futtatása

StormEvents
| summarize hllRes = hll(DamageProperty) by bin(StartTime,10m)
| summarize hllMerged = hll_merge(hllRes)

Kimenet

Az eredmények csak az első öt eredményt jelenítik meg a tömbben.

hllMerged
[[1024,14],["-6903255281122589438","-7413697181929588220","-2396604341988936699","5824198135224880646","-6257421034880415225", ...],[]]

Becslés pontossága

Ez a függvény a HyperLog (HLL) algoritmus egy változatát használja, amely sztochasztikus becslést ad a halmaz számosságáról. Az algoritmus egy "gombot" biztosít, amellyel kiegyensúlyozza a pontosságot és a végrehajtási időt memóriaméretenként:

Pontosság	Hiba (%)	Bejegyzésszám
0	1.6	2¹²
1	0,8	2¹⁴
2	0,4	2¹⁶
3	0,28	2¹⁷
4	0,2	2¹⁸

Megjegyzés

A "bejegyzésszám" oszlop a HLL-implementáció 1 bájtos számlálóinak száma.

Az algoritmus tartalmaz néhány rendelkezést a tökéletes szám (nulla hiba) elvégzésére, ha a beállított számosság elég kicsi:

Ha a pontossági szint , 1a függvény 1000 értéket ad vissza
Ha a pontossági szint , 2a függvény 8000 értéket ad vissza

A hibahatár valószínűségi, nem elméleti kötött. Az érték a hibaeloszlás szórása (a szigma), és a becslések 99,7%-a 3 x szigma alatti relatív hibával fog rendelkezni.

Az alábbi képen a relatív becslési hiba valószínűségeloszlási függvénye látható százalékban az összes támogatott pontossági beállítás esetében:

A hll hibaeloszlást ábrázoló grafikon.

Megosztás a következőn keresztül: