count_min_sketch
statistische functie
Van toepassing op: Databricks SQL Databricks Runtime
Retourneert een schets van het aantal minuten van alle waarden in de groep column
met de epsilon
en seed
confidence
.
In Databricks SQL en Databricks Runtime 13.3 LTS en hoger ondersteunt deze functie benoemde parametertoeroepen.
Syntaxis
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Deze functie kan ook worden aangeroepen als een vensterfunctie met behulp van de OVER
component.
Argumenten
column
: Een expressie die resulteert in een integraal numeriek,STRING
ofBINARY
.epsilon
: EenDOUBLE
letterlijke waarde groter dan 0 die de relatieve fout beschrijft.confidence
: EenDOUBLE
letterlijke waarde groter dan 0 en kleiner dan 1.seed
: EenINTEGER
letterlijke.cond
: Een optionele Boole-expressie die de rijen filtert die worden gebruikt voor aggregatie.
Retouren
A BINARY
.
Count-min schets is een probabilistische gegevensstructuur die wordt gebruikt voor het schatten van kardinaliteit met behulp van sub-lineaire ruimte.
Als DISTINCT
de functie is opgegeven, werkt deze alleen op een unieke set expr
waarden.
Voorbeelden
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000