mode

Retourneert de meest voorkomende waarde in een groep.

Syntaxis

from pyspark.sql import functions as sf

sf.mode(col, deterministic=False)

Parameterwaarden

Kenmerk	Typologie	Description
`col`	`pyspark.sql.Column` of kolomnaam	Doelkolom waarop moet worden berekend.
`deterministic`	bool, optioneel	Als er meerdere even frequente resultaten zijn, retourneert u het laagste resultaat (standaard ingesteld op onwaar).

Retouren

pyspark.sql.Column: de meest voorkomende waarde in een groep.

Voorbeelden

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("dotNET", 2013, 48000), ("Java", 2013, 30000)],
    schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.mode("year")).sort("course").show()

+------+----------+
|course|mode(year)|
+------+----------+
|  Java|      2012|
|dotNET|      2012|
+------+----------+

Wanneer meerdere waarden dezelfde hoogste frequentie hebben, wordt een van de waarden geretourneerd als deterministisch onwaar is of niet is gedefinieerd, of wordt de laagste waarde geretourneerd als deterministisch waar is.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(-10,), (0,), (10,)], ["col"])
df.select(sf.mode("col", True)).show()

+---------------------------------------+
|mode() WITHIN GROUP (ORDER BY col DESC)|
+---------------------------------------+
|                                    -10|
+---------------------------------------+

Feedback

Is deze pagina nuttig?

Last updated on 2026-02-01