Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Fungsi agregat: mengembalikan jumlah nilai yang berbeda dalam ekspresi.
Syntax
from pyspark.sql import functions as sf
sf.sum_distinct(col)
Parameter-parameternya
| Pengaturan | Tipe | Description |
|---|---|---|
col |
pyspark.sql.Column atau str |
Kolom target untuk dihitung. |
Pengembalian Barang
pyspark.sql.Column: kolom untuk hasil komputasi.
Examples
Contoh 1: Menggunakan fungsi sum_distinct pada kolom dengan semua nilai yang berbeda
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 10|
+---------------------+
Contoh 2: Menggunakan fungsi sum_distinct pada kolom tanpa nilai yang berbeda
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 1|
+---------------------+
Contoh 3: Menggunakan fungsi sum_distinct pada kolom dengan nilai null dan duplikat
from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 3|
+---------------------+