Delen via


max

Retourneert de maximumwaarde van de expressie in een groep. Null-waarden worden tijdens de berekening genegeerd. NaN-waarden zijn groter dan elke andere numerieke waarde.

Syntaxis

from pyspark.sql import functions as sf

sf.max(col)

Parameterwaarden

Kenmerk Typologie Description
col pyspark.sql.Column of kolomnaam De doelkolom waarop de maximumwaarde wordt berekend.

Retouren

pyspark.sql.Column: Een kolom die de maximale waarde bevat die is berekend.

Voorbeelden

Voorbeeld 1: De maximumwaarde van een numerieke kolom berekenen

import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()
+-------+
|max(id)|
+-------+
|      9|
+-------+

Voorbeeld 2: De maximumwaarde van een tekenreekskolom berekenen

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         C|
+----------+

Voorbeeld 3: De maximumwaarde van een kolom in een gegroepeerd DataFrame berekenen

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

Voorbeeld 4: De maximumwaarde van meerdere kolommen in een gegroepeerd DataFrame berekenen

import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

Voorbeeld 5: De maximumwaarde van een kolom berekenen met null-waarden

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         2|
+----------+

Voorbeeld 6: De maximumwaarde van een kolom berekenen met 'NaN'-waarden

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|       NaN|
+----------+