Bagikan melalui


max

Mengembalikan nilai maksimum ekspresi dalam grup. Nilai null diabaikan selama komputasi. Nilai NaN lebih besar dari nilai numerik lainnya.

Syntax

from pyspark.sql import functions as sf

sf.max(col)

Parameter-parameternya

Pengaturan Tipe Description
col pyspark.sql.Column atau nama kolom Kolom target tempat nilai maksimum dihitung.

Pengembalian Barang

pyspark.sql.Column: Kolom yang berisi nilai maksimum yang dihitung.

Examples

Contoh 1: Menghitung nilai maksimum kolom numerik

import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()
+-------+
|max(id)|
+-------+
|      9|
+-------+

Contoh 2: Menghitung nilai maksimum kolom string

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         C|
+----------+

Contoh 3: Menghitung nilai maksimum kolom dalam DataFrame yang dikelompokkan

import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

Contoh 4: Menghitung nilai maksimum beberapa kolom dalam DataFrame yang dikelompokkan

import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

Contoh 5: Menghitung nilai maksimum kolom dengan nilai null

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|         2|
+----------+

Contoh 6: Menghitung nilai maksimum kolom dengan nilai "NaN"

import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()
+----------+
|max(value)|
+----------+
|       NaN|
+----------+