histogram_numeric

Calcula um histograma em 'col' numérico usando compartimentos de nb. O valor retornado é uma matriz de pares (x,y) que representam os centros das lixeiras do histograma. À medida que o valor de 'nb' é aumentado, a aproximação do histograma fica mais refinada, mas pode produzir artefatos em torno de exceções. Na prática, 20-40 compartimentos de histograma parecem funcionar bem, com mais compartimentos sendo necessários para conjuntos de dados distorcidos ou menores. Observe que essa função cria um histograma com larguras de compartimento não uniformes. Ele não oferece garantias em termos do erro médio quadrado do histograma, mas, na prática, é comparável aos histogramas produzidos pelos pacotes de computação estatística R/S-Plus. Observação: o tipo de saída do campo 'x' no valor retornado é propagado do valor de entrada consumido na função de agregação.

Sintaxe

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parâmetros

Parâmetro	Tipo	Description
`col`	`pyspark.sql.Column` ou str	Coluna de destino na qual trabalhar.
`nBins`	`pyspark.sql.Column`	Número de colunas de histograma.

Devoluções

pyspark.sql.Column: um histograma em 'col' numérico usando compartimentos de nb.

Exemplos

Exemplo 1: computar histograma com 5 compartimentos

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)

+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+

Comentários

Esta página foi útil?

Last updated on 2026-02-01