Bagikan melalui


count_distinct

Mengembalikan Kolom baru untuk hitungan unik dari kolom atau kolom-kolom.

Syntax

from pyspark.sql import functions as sf

sf.count_distinct(col, *cols)

Parameter-parameternya

Pengaturan Tipe Description
col pyspark.sql.Column atau nama kolom Kolom pertama yang akan dihitung.
cols pyspark.sql.Column atau nama kolom Kolom lain untuk dihitung.

Pengembalian Barang

pyspark.sql.Column: nilai berbeda dari dua nilai kolom ini.

Examples

Contoh 1: Menghitung nilai yang berbeda dari satu kolom

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(sf.count_distinct(df.value)).show()
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Contoh 2: Menghitung nilai yang berbeda dari beberapa kolom

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct(df.value1, df.value2)).show()
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+

Contoh 3: Menghitung nilai yang berbeda dengan nama kolom sebagai string

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct("value1", "value2")).show()
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+