count_min_sketch
mängdfunktion
Gäller för: Databricks SQL
Databricks Runtime
Returnerar en skiss med antal min för alla värden i gruppen i column
med epsilon
, confidence
och seed
.
I Databricks SQL och Databricks Runtime 13.3 LTS och senare stöder den här funktionen namngivna parameteranrop.
Syntax
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Den här funktionen kan också anropas som en fönsterfunktion med hjälp av OVER
-satsen.
Argument
column
: Ett uttryck som utvärderas till ett helt numeriskt uttryck,STRING
, ellerBINARY
.epsilon
: EnDOUBLE
literal större än 0 som beskriver det relativa felet.confidence
: EnDOUBLE
literal större än 0 och mindre än 1.seed
: EnINTEGER
literal.cond
: Ett valfritt booleskt uttryck som filtrerar de rader som används för aggregering.
Returer
En BINARY
.
Count-min-skiss är en probabilistisk datastruktur som används för kardinalitetsuppskattning med hjälp av sub-linjärt utrymme.
Om DISTINCT
anges fungerar funktionen endast på en unik uppsättning expr
värden.
Exempel
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000
Relaterade
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för