Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Calcula um histograma em 'col' numérico usando compartimentos de nb. O valor retornado é uma matriz de pares (x,y) que representam os centros das lixeiras do histograma. À medida que o valor de 'nb' é aumentado, a aproximação do histograma fica mais refinada, mas pode produzir artefatos em torno de exceções. Na prática, 20-40 compartimentos de histograma parecem funcionar bem, com mais compartimentos sendo necessários para conjuntos de dados distorcidos ou menores. Observe que essa função cria um histograma com larguras de compartimento não uniformes. Ele não oferece garantias em termos do erro médio quadrado do histograma, mas, na prática, é comparável aos histogramas produzidos pelos pacotes de computação estatística R/S-Plus. Observação: o tipo de saída do campo 'x' no valor retornado é propagado do valor de entrada consumido na função de agregação.
Sintaxe
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Parâmetros
| Parâmetro | Tipo | Description |
|---|---|---|
col |
pyspark.sql.Column ou str |
Coluna de destino na qual trabalhar. |
nBins |
pyspark.sql.Column |
Número de colunas de histograma. |
Devoluções
pyspark.sql.Column: um histograma em 'col' numérico usando compartimentos de nb.
Exemplos
Exemplo 1: computar histograma com 5 compartimentos
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+