Udostępnij przez


max

Zwraca maksymalną wartość wyrażenia w grupie. Wartości null są ignorowane podczas obliczeń. Wartości naN są większe niż jakakolwiek inna wartość liczbowa.

Składnia

from pyspark.sql import functions as sf

sf.max(col)

Parametry

Parameter Typ Description
col pyspark.sql.Column lub nazwa kolumny Kolumna docelowa, w której jest obliczana maksymalna wartość.

Zwraca

pyspark.sql.Column: kolumna zawierająca obliczoną maksymalną wartość.

Przykłady

Przykład 1. Obliczanie maksymalnej wartości kolumny liczbowej

import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()
+-------+
|max(id)|
+-------+
|      9|
+-------+

Przykład 2. Obliczanie maksymalnej wartości kolumny ciągu

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         C|
+----------+

Przykład 3. Obliczanie maksymalnej wartości kolumny w zgrupowanej ramce danych

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

Przykład 4. Obliczanie maksymalnej wartości wielu kolumn w zgrupowanej ramce danych

import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

Przykład 5. Obliczanie maksymalnej wartości kolumny z wartościami null

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         2|
+----------+

Przykład 6. Obliczanie maksymalnej wartości kolumny z wartościami "NaN"

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|       NaN|
+----------+