Udostępnij przez


mode

Zwraca najczęściej spotykaną wartość w grupie.

Składnia

from pyspark.sql import functions as sf

sf.mode(col, deterministic=False)

Parametry

Parameter Typ Description
col pyspark.sql.Column lub nazwa kolumny Kolumna docelowa do obliczenia.
deterministic wartość logiczna, opcjonalnie Jeśli istnieje wiele równie częstych wyników, zwróć najniższą wartość (wartość domyślna to false).

Zwraca

pyspark.sql.Column: najczęściej spotykana wartość w grupie.

Przykłady

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("Java", 2012, 20000), ("dotNET", 2012, 5000),
    ("dotNET", 2013, 48000), ("Java", 2013, 30000)],
    schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.mode("year")).sort("course").show()
+------+----------+
|course|mode(year)|
+------+----------+
|  Java|      2012|
|dotNET|      2012|
+------+----------+

Jeśli wiele wartości ma taką samą największą częstotliwość, zwracana jest dowolna z wartości, jeśli deterministyczna jest fałsz lub nie jest zdefiniowana, albo najniższa wartość jest zwracana, jeśli wartość deterministyczna ma wartość true.

from pyspark.sql import functions as sf
df = spark.createDataFrame([(-10,), (0,), (10,)], ["col"])
df.select(sf.mode("col", True)).show()
+---------------------------------------+
|mode() WITHIN GROUP (ORDER BY col DESC)|
+---------------------------------------+
|                                    -10|
+---------------------------------------+