Bagikan melalui


count_min_sketchFungsi agregat

Berlaku untuk: centang ditandai ya Databricks SQL centang ditandai ya Databricks Runtime

Menghasilkan sketsa hitungan menit dari semua nilai dalam grup column dengan epsilon, confidence dan seed.

Dalam Databricks SQL dan Databricks Runtime 13.3 LTS dan di atas fungsi ini mendukung pemanggilan parameter bernama.

Sintaks

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Fungsi ini juga dapat dipanggil sebagai fungsi jendela menggunakan OVER klausa.

Argumen

  • column: Ekspresi yang mengevaluasi ke numerik integral, STRING, atau BINARY.
  • epsilon: Harfiah DOUBLE lebih besar dari 0 yang menjelaskan kesalahan relatif.
  • confidence: Harfiah DOUBLE lebih besar dari 0 dan kurang dari 1.
  • seed: Harfiah INTEGER .
  • cond: Ekspresi boolean opsional yang memfilter baris yang digunakan untuk agregasi.

Mengembalikan

BINARY.

Sketsa Count-min adalah struktur data probabilistik yang digunakan untuk estimasi kriminalitas menggunakan ruang sub-linear.

Jika DISTINCT ditentukan, fungsi hanya beroperasi pada satu set nilai expr yang unik.

Contoh

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000