count_min_sketch
função agregar
Aplica-se a: Databricks SQL
Databricks Runtime
Retorna um esboço de contagem-min de todos os valores no grupo com column
o epsilon
, confidence
e seed
.
No Databricks SQL e no Databricks Runtime 13.3 LTS e superior, esta função suporta a invocação de parâmetros nomeados.
Sintaxe
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Esta função também pode ser invocada como uma função de janela usando a OVER
cláusula.
Argumentos
column
: Uma expressão que é avaliada como numérica integral,STRING
ouBINARY
.epsilon
: UmDOUBLE
literal maior que 0 descrevendo o erro relativo.confidence
: UmDOUBLE
literal maior que 0 e menor que 1.seed
: UmINTEGER
literal.cond
: Uma expressão booleana opcional filtrando as linhas usadas para agregação.
Devoluções
A BINARY
.
Count-min sketch é uma estrutura de dados probabilística usada para estimativa de cardinalidade usando espaço sublinear.
Se DISTINCT
for especificado, a função opera apenas em um conjunto exclusivo de expr
valores.
Exemplos
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000
Relacionada
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários