Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Вычисляет гистограмму на числовом "col" с помощью nb bins. Возвращаемое значение — это массив пар (x,y), представляющих центры ячеек гистограммы. По мере увеличения значения "nb", приближение гистограммы получает более детальное, но может привести к артефактам вокруг выпадающих. На практике 20-40 гистограммных ячеек, как представляется, хорошо работают, при этом для более мелких наборов данных требуется больше ячеек. Обратите внимание, что эта функция создает гистограмму с неоднородными ширинами ячейки. Он не предоставляет никаких гарантий с точки зрения среднеквадратической ошибки гистограммы, но на практике сравним с гистограммами, созданными пакетами статистических вычислений R/S/S-Plus. Примечание. Выходной тип поля "x" в возвращаемом значении распространяется из входного значения, потребляемого в агрегатной функции.
Синтаксис
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Параметры
| Параметр | Тип | Description |
|---|---|---|
col |
pyspark.sql.Column или str |
Целевой столбец для работы. |
nBins |
pyspark.sql.Column |
Число столбцов гистограммы. |
Возвраты
pyspark.sql.Column: гистограмма на числовом "col" с помощью nb bins.
Примеры
Пример 1. Вычисление гистограммы с 5 ячейками
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+