Teilen über


max

Gibt den Maximalwert des Ausdrucks in einer Gruppe zurück. Nullwerte werden während der Berechnung ignoriert. NaN-Werte sind größer als alle anderen numerischen Werte.

Syntax

from pyspark.sql import functions as sf

sf.max(col)

Die Parameter

Parameter Typ Description
col pyspark.sql.Column oder Spaltenname Die Zielspalte, für die der Maximalwert berechnet wird.

Rückkehr

pyspark.sql.Column: Eine Spalte, die den berechneten Maximalwert enthält.

Examples

Beispiel 1: Berechnen des Maximalwerts einer numerischen Spalte

import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()
+-------+
|max(id)|
+-------+
|      9|
+-------+

Beispiel 2: Berechnen des Maximalwerts einer Zeichenfolgenspalte

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         C|
+----------+

Beispiel 3: Berechnen des Maximalwerts einer Spalte in einem gruppierten DataFrame

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

Beispiel 4: Berechnen des Maximalwerts mehrerer Spalten in einem gruppierten DataFrame

import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

Beispiel 5: Berechnen des Maximalwerts einer Spalte mit Nullwerten

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         2|
+----------+

Beispiel 6: Berechnen des Maximalwerts einer Spalte mit "NaN"-Werten

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|       NaN|
+----------+