Megosztás:


mode

Egy csoport leggyakoribb értékét adja vissza.

Szemantika

from pyspark.sql import functions as sf

sf.mode(col, deterministic=False)

Paraméterek

Paraméter Típus Description
col pyspark.sql.Column vagy oszlop neve Céloszlop a számításhoz.
deterministic bool, nem kötelező Ha több azonos gyakoriságú találat van, akkor a legalacsonyabb értéket adja vissza (alapértelmezés szerint hamis).

Visszatérítések

pyspark.sql.Column: a csoport leggyakoribb értéke.

Példák

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("dotNET", 2013, 48000), ("Java", 2013, 30000)],
    schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.mode("year")).sort("course").show()
+------+----------+
|course|mode(year)|
+------+----------+
|  Java|      2012|
|dotNET|      2012|
+------+----------+

Ha több érték azonos gyakorisággal rendelkezik, akkor a függvény bármelyik értéket visszaadja, ha a determinisztikus értéke hamis vagy nincs meghatározva, vagy a legkisebb értéket adja vissza, ha a determinisztikus érték igaz.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(-10,), (0,), (10,)], ["col"])
df.select(sf.mode("col", True)).show()
+---------------------------------------+
|mode() WITHIN GROUP (ORDER BY col DESC)|
+---------------------------------------+
|                                    -10|
+---------------------------------------+