Bagikan melalui


sum_distinct

Fungsi agregat: mengembalikan jumlah nilai yang berbeda dalam ekspresi.

Syntax

from pyspark.sql import functions as sf

sf.sum_distinct(col)

Parameter-parameternya

Pengaturan Tipe Description
col pyspark.sql.Column atau str Kolom target untuk dihitung.

Pengembalian Barang

pyspark.sql.Column: kolom untuk hasil komputasi.

Examples

Contoh 1: Menggunakan fungsi sum_distinct pada kolom dengan semua nilai yang berbeda

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                   10|
+---------------------+

Contoh 2: Menggunakan fungsi sum_distinct pada kolom tanpa nilai yang berbeda

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    1|
+---------------------+

Contoh 3: Menggunakan fungsi sum_distinct pada kolom dengan nilai null dan duplikat

from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    3|
+---------------------+