count_min_sketch
Fungsi agregat
Berlaku untuk: Databricks SQL Databricks Runtime
Menghasilkan sketsa hitungan menit dari semua nilai dalam grup column
dengan epsilon
, confidence
dan seed
.
Dalam Databricks SQL dan Databricks Runtime 13.3 LTS dan di atas fungsi ini mendukung pemanggilan parameter bernama.
Sintaks
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Fungsi ini juga dapat dipanggil sebagai fungsi jendela menggunakan OVER
klausa.
Argumen
column
: Ekspresi yang mengevaluasi ke numerik integral,STRING
, atauBINARY
.epsilon
: HarfiahDOUBLE
lebih besar dari 0 yang menjelaskan kesalahan relatif.confidence
: HarfiahDOUBLE
lebih besar dari 0 dan kurang dari 1.seed
: HarfiahINTEGER
.cond
: Ekspresi boolean opsional yang memfilter baris yang digunakan untuk agregasi.
Mengembalikan
BINARY
.
Sketsa Count-min adalah struktur data probabilistik yang digunakan untuk estimasi kriminalitas menggunakan ruang sub-linear.
Jika DISTINCT
ditentukan, fungsi hanya beroperasi pada satu set nilai expr
yang unik.
Contoh
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000