Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Kiszámítja a hisztogramot a numerikus "col" nb binek használatával. A visszatérési érték a hisztogram tárolóinak középpontját képviselő (x,y) párok tömbje. Az "nb" értékének növekedésével a hisztogram közelítése finomabb lesz, de kiugró értékekhez vezethet. A gyakorlatban úgy tűnik, hogy 20-40 hisztogramtároló működik jól, és több tárolóra van szükség a ferde vagy kisebb adathalmazokhoz. Vegye figyelembe, hogy ez a függvény nem egységes tárolószélességű hisztogramot hoz létre. A hisztogram közép-négyzetes hibájára vonatkozóan nem nyújt garanciát, de a gyakorlatban összehasonlítható az R/S-Plus statisztikai számítástechnikai csomagok által előállított hisztogramokkal. Megjegyzés: a visszatérési érték x mezőjének kimeneti típusa az összesítő függvényben felhasznált bemeneti értékből lesz propagálva.
Szemantika
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Paraméterek
| Paraméter | Típus | Description |
|---|---|---|
col |
pyspark.sql.Column vagy str |
Céloszlop, amelyen dolgozni szeretne. |
nBins |
pyspark.sql.Column |
Hisztogramoszlopok száma. |
Visszatérítések
pyspark.sql.Column: a hisztogram a numerikus "col" használatával nb bins.
Példák
1. példa: Hisztogram kiszámítása 5 tárolóval
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+