histogram_numeric

Oblicza histogram liczbowy "col" przy użyciu pojemników nb. Wartość zwracana jest tablicą par (x,y) reprezentujących centra pojemników histogramu. W miarę wzrostu wartości "nb" przybliżenie histogramu staje się bardziej szczegółowe, ale może przynieść artefakty wokół wartości odstających. W praktyce, 20-40 histogram pojemników wydaje się działać dobrze, a więcej pojemników jest wymaganych dla niesymetrycznych lub mniejszych zestawów danych. Należy pamiętać, że ta funkcja tworzy histogram o niestandardowych szerokościach pojemników. Nie oferuje żadnych gwarancji w zakresie błędu średniokwadratowego histogramu, ale w praktyce jest porównywalny z histogramami wyprodukowanymi przez pakiety statystyczne R/S-Plus. Uwaga: typ danych wyjściowych pola "x" w wartości zwracanej jest propagowany z wartości wejściowej używanej w funkcji agregującej.

Składnia

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parametry

Parameter	Typ	Description
`col`	`pyspark.sql.Column` lub str	Kolumna docelowa do pracy.
`nBins`	`pyspark.sql.Column`	Liczba kolumn histogramu.

Zwraca

pyspark.sql.Column: histogram liczbowy "col" przy użyciu pojemników nb.

Przykłady

Przykład 1. Obliczanie histogramu z 5 pojemnikami

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)

+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+

Opinia

Czy ta strona była pomocna?

Last updated on 2026-02-01