Partilhar via


histogram_numeric

Calcula um histograma no 'col' numérico usando bins nb. O valor de retorno é um array de pares (x,y) que representam os centros dos bins do histograma. À medida que o valor de 'nb' é aumentado, a aproximação do histograma torna-se mais fina, mas pode gerar artefactos em torno dos valores atípicos. Na prática, 20-40 caixas de histogramas parecem funcionar bem, sendo necessárias mais caixas para conjuntos de dados enviesados ou mais pequenos. Note que esta função cria um histograma com larguras de bin não uniformes. Não oferece garantias em termos do erro quadrático médio do histograma, mas na prática é comparável aos histogramas produzidos pelos pacotes de computação estatística R/S-Plus. Nota: o tipo de saída do campo 'x' no valor de retorno é propagado a partir do valor de entrada consumido na função agregada.

Sintaxe

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parâmetros

Parâmetro Tipo Description
col pyspark.sql.Column ou str Coluna alvo para trabalhar.
nBins pyspark.sql.Column Número de colunas de histograma.

Devoluções

pyspark.sql.Column: um histograma do 'col' numérico usando bins nb.

Examples

Exemplo 1: Calcular histograma com 5 bins

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+