Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Zwraca najczęściej spotykaną wartość w grupie.
Składnia
from pyspark.sql import functions as sf
sf.mode(col, deterministic=False)
Parametry
| Parameter | Typ | Description |
|---|---|---|
col |
pyspark.sql.Column lub nazwa kolumny |
Kolumna docelowa do obliczenia. |
deterministic |
wartość logiczna, opcjonalnie | Jeśli istnieje wiele równie częstych wyników, zwróć najniższą wartość (wartość domyślna to false). |
Zwraca
pyspark.sql.Column: najczęściej spotykana wartość w grupie.
Przykłady
from pyspark.sql import functions as sf
df = spark.createDataFrame([
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("dotNET", 2013, 48000), ("Java", 2013, 30000)],
schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.mode("year")).sort("course").show()
+------+----------+
|course|mode(year)|
+------+----------+
| Java| 2012|
|dotNET| 2012|
+------+----------+
Jeśli wiele wartości ma taką samą największą częstotliwość, zwracana jest dowolna z wartości, jeśli deterministyczna jest fałsz lub nie jest zdefiniowana, albo najniższa wartość jest zwracana, jeśli wartość deterministyczna ma wartość true.
from pyspark.sql import functions as sf
df = spark.createDataFrame([(-10,), (0,), (10,)], ["col"])
df.select(sf.mode("col", True)).show()
+---------------------------------------+
|mode() WITHIN GROUP (ORDER BY col DESC)|
+---------------------------------------+
| -10|
+---------------------------------------+