Compartir vía


histogram_numeric

Calcula un histograma en "col" numérico mediante intervalos nb. El valor devuelto es una matriz de pares (x,y) que representan los centros de los intervalos del histograma. A medida que se aumenta el valor de "nb", la aproximación del histograma obtiene una mayor detalle, pero puede producir artefactos alrededor de valores atípicos. En la práctica, 20-40 intervalos de histogramas parecen funcionar bien, con más intervalos que se requieren para conjuntos de datos sesgados o más pequeños. Tenga en cuenta que esta función crea un histograma con anchos de cubo no uniformes. No ofrece garantías en términos del error medio cuadrado del histograma, pero en la práctica es comparable a los histogramas producidos por los paquetes estadísticos de R/S-Plus. Nota: el tipo de salida del campo "x" del valor devuelto se propaga desde el valor de entrada consumido en la función de agregado.

Syntax

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parámetros

Parámetro Tipo Description
col pyspark.sql.Column o str Columna de destino en la que trabajar.
nBins pyspark.sql.Column Número de columnas de histograma.

Devoluciones

pyspark.sql.Column: un histograma en "col" numérico mediante bins nb.

Examples

Ejemplo 1: Calcular histogramas con 5 cubos

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+