Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Oblicza histogram liczbowy "col" przy użyciu pojemników nb. Wartość zwracana jest tablicą par (x,y) reprezentujących centra pojemników histogramu. W miarę wzrostu wartości "nb" przybliżenie histogramu staje się bardziej szczegółowe, ale może przynieść artefakty wokół wartości odstających. W praktyce, 20-40 histogram pojemników wydaje się działać dobrze, a więcej pojemników jest wymaganych dla niesymetrycznych lub mniejszych zestawów danych. Należy pamiętać, że ta funkcja tworzy histogram o niestandardowych szerokościach pojemników. Nie oferuje żadnych gwarancji w zakresie błędu średniokwadratowego histogramu, ale w praktyce jest porównywalny z histogramami wyprodukowanymi przez pakiety statystyczne R/S-Plus. Uwaga: typ danych wyjściowych pola "x" w wartości zwracanej jest propagowany z wartości wejściowej używanej w funkcji agregującej.
Składnia
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Parametry
| Parameter | Typ | Description |
|---|---|---|
col |
pyspark.sql.Column lub str |
Kolumna docelowa do pracy. |
nBins |
pyspark.sql.Column |
Liczba kolumn histogramu. |
Zwraca
pyspark.sql.Column: histogram liczbowy "col" przy użyciu pojemników nb.
Przykłady
Przykład 1. Obliczanie histogramu z 5 pojemnikami
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+