Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Mengembalikan Kolom baru untuk hitungan unik dari kolom atau kolom-kolom.
Syntax
from pyspark.sql import functions as sf
sf.count_distinct(col, *cols)
Parameter-parameternya
| Pengaturan | Tipe | Description |
|---|---|---|
col |
pyspark.sql.Column atau nama kolom |
Kolom pertama yang akan dihitung. |
cols |
pyspark.sql.Column atau nama kolom |
Kolom lain untuk dihitung. |
Pengembalian Barang
pyspark.sql.Column: nilai berbeda dari dua nilai kolom ini.
Examples
Contoh 1: Menghitung nilai yang berbeda dari satu kolom
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(sf.count_distinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
Contoh 2: Menghitung nilai yang berbeda dari beberapa kolom
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct(df.value1, df.value2)).show()
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
| 2|
+------------------------------+
Contoh 3: Menghitung nilai yang berbeda dengan nama kolom sebagai string
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct("value1", "value2")).show()
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
| 2|
+------------------------------+