Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula un histograma en "col" numérico mediante intervalos nb. El valor devuelto es una matriz de pares (x,y) que representan los centros de los intervalos del histograma. A medida que se aumenta el valor de "nb", la aproximación del histograma obtiene una mayor detalle, pero puede producir artefactos alrededor de valores atípicos. En la práctica, 20-40 intervalos de histogramas parecen funcionar bien, con más intervalos que se requieren para conjuntos de datos sesgados o más pequeños. Tenga en cuenta que esta función crea un histograma con anchos de cubo no uniformes. No ofrece garantías en términos del error medio cuadrado del histograma, pero en la práctica es comparable a los histogramas producidos por los paquetes estadísticos de R/S-Plus. Nota: el tipo de salida del campo "x" del valor devuelto se propaga desde el valor de entrada consumido en la función de agregado.
Syntax
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
col |
pyspark.sql.Column o str |
Columna de destino en la que trabajar. |
nBins |
pyspark.sql.Column |
Número de columnas de histograma. |
Devoluciones
pyspark.sql.Column: un histograma en "col" numérico mediante bins nb.
Examples
Ejemplo 1: Calcular histogramas con 5 cubos
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+