Megosztás:


histogram_numeric

Kiszámítja a hisztogramot a numerikus "col" nb binek használatával. A visszatérési érték a hisztogram tárolóinak középpontját képviselő (x,y) párok tömbje. Az "nb" értékének növekedésével a hisztogram közelítése finomabb lesz, de kiugró értékekhez vezethet. A gyakorlatban úgy tűnik, hogy 20-40 hisztogramtároló működik jól, és több tárolóra van szükség a ferde vagy kisebb adathalmazokhoz. Vegye figyelembe, hogy ez a függvény nem egységes tárolószélességű hisztogramot hoz létre. A hisztogram közép-négyzetes hibájára vonatkozóan nem nyújt garanciát, de a gyakorlatban összehasonlítható az R/S-Plus statisztikai számítástechnikai csomagok által előállított hisztogramokkal. Megjegyzés: a visszatérési érték x mezőjének kimeneti típusa az összesítő függvényben felhasznált bemeneti értékből lesz propagálva.

Szemantika

from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Paraméterek

Paraméter Típus Description
col pyspark.sql.Column vagy str Céloszlop, amelyen dolgozni szeretne.
nBins pyspark.sql.Column Hisztogramoszlopok száma.

Visszatérítések

pyspark.sql.Column: a hisztogram a numerikus "col" használatával nb bins.

Példák

1. példa: Hisztogram kiszámítása 5 tárolóval

from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5)                                   |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+