Поделиться через


histogram_numeric

Вычисляет гистограмму на числовом "col" с помощью nb bins. Возвращаемое значение — это массив пар (x,y), представляющих центры ячеек гистограммы. По мере увеличения значения "nb", приближение гистограммы получает более детальное, но может привести к артефактам вокруг выпадающих. На практике 20-40 гистограммных ячеек, как представляется, хорошо работают, при этом для более мелких наборов данных требуется больше ячеек. Обратите внимание, что эта функция создает гистограмму с неоднородными ширинами ячейки. Он не предоставляет никаких гарантий с точки зрения среднеквадратической ошибки гистограммы, но на практике сравним с гистограммами, созданными пакетами статистических вычислений R/S/S-Plus. Примечание. Выходной тип поля "x" в возвращаемом значении распространяется из входного значения, потребляемого в агрегатной функции.

Синтаксис

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Параметры

Параметр Тип Description
col pyspark.sql.Column или str Целевой столбец для работы.
nBins pyspark.sql.Column Число столбцов гистограммы.

Возвраты

pyspark.sql.Column: гистограмма на числовом "col" с помощью nb bins.

Примеры

Пример 1. Вычисление гистограммы с 5 ячейками

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+