Поделиться через


Агрегатная функция count_min_sketch

Область применения: флажок Databricks SQL флажок Databricks Runtime

Возвращает эскиз count-min всех значений в группе в выражении column с epsilon, confidence и seed.

В Databricks SQL и Databricks Runtime 13.3 LTS и выше эта функция поддерживает вызов именованных параметров.

Синтаксис

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Эту функцию также можно вызвать как функцию окна с помощью OVER предложения.

Аргументы

  • column: выражение, которое вычисляет целочисленное число, STRINGили BINARY.
  • epsilon: литерал DOUBLE больше 0, описывающий относительную ошибку.
  • confidenceDOUBLE: литерал больше 0 и меньше 1.
  • seed: литерал INTEGER .
  • cond: необязательное логическое выражение для фильтрации строк, используемых для агрегирования.

Возвраты

BINARY.

Эскиз count-min содержит вероятностную структуру данных, которая используется для оценки кратности с использованием сублинейного пространства.

Если задано значение DISTINCT, функция работает только с уникальным набором значений expr.

Примеры

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000