count_min_sketch statistische functie

Van toepassing op:vinkje als ja aan Databricks SQL vinkje als ja aan Databricks Runtime

Retourneert een schets van het aantal minuten van alle waarden in de groep column met de epsilonen seedconfidence .

In Databricks SQL en Databricks Runtime 13.3 LTS en hoger ondersteunt deze functie benoemde parametertoeroepen.

Syntaxis

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Deze functie kan ook worden aangeroepen als een vensterfunctie met behulp van de OVER component.

Argumenten

  • column: Een expressie die resulteert in een integraal numeriek, STRINGof BINARY.
  • epsilon: Een DOUBLE letterlijke waarde groter dan 0 die de relatieve fout beschrijft.
  • confidence: Een DOUBLE letterlijke waarde groter dan 0 en kleiner dan 1.
  • seed: Een INTEGER letterlijke.
  • cond: Een optionele Boole-expressie die de rijen filtert die worden gebruikt voor aggregatie.

Retouren

A BINARY.

Count-min schets is een probabilistische gegevensstructuur die wordt gebruikt voor het schatten van kardinaliteit met behulp van sub-lineaire ruimte.

Als DISTINCT de functie is opgegeven, werkt deze alleen op een unieke set expr waarden.

Voorbeelden

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000