Udostępnij przez


histogram_numeric

Oblicza histogram liczbowy "col" przy użyciu pojemników nb. Wartość zwracana jest tablicą par (x,y) reprezentujących centra pojemników histogramu. W miarę wzrostu wartości "nb" przybliżenie histogramu staje się bardziej szczegółowe, ale może przynieść artefakty wokół wartości odstających. W praktyce, 20-40 histogram pojemników wydaje się działać dobrze, a więcej pojemników jest wymaganych dla niesymetrycznych lub mniejszych zestawów danych. Należy pamiętać, że ta funkcja tworzy histogram o niestandardowych szerokościach pojemników. Nie oferuje żadnych gwarancji w zakresie błędu średniokwadratowego histogramu, ale w praktyce jest porównywalny z histogramami wyprodukowanymi przez pakiety statystyczne R/S-Plus. Uwaga: typ danych wyjściowych pola "x" w wartości zwracanej jest propagowany z wartości wejściowej używanej w funkcji agregującej.

Składnia

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parametry

Parameter Typ Description
col pyspark.sql.Column lub str Kolumna docelowa do pracy.
nBins pyspark.sql.Column Liczba kolumn histogramu.

Zwraca

pyspark.sql.Column: histogram liczbowy "col" przy użyciu pojemników nb.

Przykłady

Przykład 1. Obliczanie histogramu z 5 pojemnikami

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+