Sdílet prostřednictvím


count_min_sketch agregační funkce

Platí pro: zaškrtnutí označeného ano Databricks SQL zaškrtnutí označeného ano Databricks Runtime

Vrátí minimální náčrtek všech hodnot ve skupině column s epsilonhodnotou a confidence seed.

V Databricks SQL a Databricks Runtime 13.3 LTS a vyšší podporuje volání pojmenovaných parametrů.

Syntaxe

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Tuto funkci lze také vyvolat jako funkci okna pomocí OVER klauzule.

Argumenty

  • column: Výraz, který se vyhodnocuje jako integrální číselný, STRINGnebo BINARY.
  • epsilonDOUBLE: Literál větší než 0 popisující relativní chybu.
  • confidenceDOUBLE: Literál větší než 0 a menší než 1.
  • seed: Literál INTEGER .
  • cond: Volitelný logický výraz filtrující řádky použité pro agregaci.

Návraty

Úloha BINARY.

Náčrtek count-min je pravděpodobnostní datová struktura používaná k odhadu kardinality pomocí sublineárního prostoru.

Pokud DISTINCT je zadána funkce funguje pouze s jedinečnou sadou expr hodnot.

Příklady

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000