Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Retourneert de meest voorkomende waarde in een groep.
Syntaxis
from pyspark.sql import functions as sf
sf.mode(col, deterministic=False)
Parameterwaarden
| Kenmerk | Typologie | Description |
|---|---|---|
col |
pyspark.sql.Column of kolomnaam |
Doelkolom waarop moet worden berekend. |
deterministic |
bool, optioneel | Als er meerdere even frequente resultaten zijn, retourneert u het laagste resultaat (standaard ingesteld op onwaar). |
Retouren
pyspark.sql.Column: de meest voorkomende waarde in een groep.
Voorbeelden
from pyspark.sql import functions as sf
df = spark.createDataFrame([
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("dotNET", 2013, 48000), ("Java", 2013, 30000)],
schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.mode("year")).sort("course").show()
+------+----------+
|course|mode(year)|
+------+----------+
| Java| 2012|
|dotNET| 2012|
+------+----------+
Wanneer meerdere waarden dezelfde hoogste frequentie hebben, wordt een van de waarden geretourneerd als deterministisch onwaar is of niet is gedefinieerd, of wordt de laagste waarde geretourneerd als deterministisch waar is.
from pyspark.sql import functions as sf
df = spark.createDataFrame([(-10,), (0,), (10,)], ["col"])
df.select(sf.mode("col", True)).show()
+---------------------------------------+
|mode() WITHIN GROUP (ORDER BY col DESC)|
+---------------------------------------+
| -10|
+---------------------------------------+