다음을 통해 공유


max

그룹에서 식의 최대값을 반환합니다. Null 값은 계산 중에 무시됩니다. NaN 값은 다른 숫자 값보다 큽합니다.

문법

from pyspark.sql import functions as sf

sf.max(col)

매개 변수

매개 변수 유형 Description
col pyspark.sql.Column 또는 열 이름 최대값이 계산되는 대상 열입니다.

Returns

pyspark.sql.Column: 계산된 최대값을 포함하는 열입니다.

예시

예제 1: 숫자 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()
+-------+
|max(id)|
+-------+
|      9|
+-------+

예제 2: 문자열 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         C|
+----------+

예제 3: 그룹화된 DataFrame에서 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

예제 4: 그룹화된 DataFrame에서 여러 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

예제 5: null 값을 사용하여 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         2|
+----------+

예제 6: "NaN" 값을 사용하여 열의 최대값 계산

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|       NaN|
+----------+