count_distinct

Mengembalikan Kolom baru untuk hitungan unik dari kolom atau kolom-kolom.

Syntax

from pyspark.sql import functions as sf

sf.count_distinct(col, *cols)

Parameter-parameternya

Pengaturan	Tipe	Description
`col`	`pyspark.sql.Column` atau nama kolom	Kolom pertama yang akan dihitung.
`cols`	`pyspark.sql.Column` atau nama kolom	Kolom lain untuk dihitung.

Pengembalian Barang

pyspark.sql.Column: nilai berbeda dari dua nilai kolom ini.

Examples

Contoh 1: Menghitung nilai yang berbeda dari satu kolom

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(sf.count_distinct(df.value)).show()

+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Contoh 2: Menghitung nilai yang berbeda dari beberapa kolom

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct(df.value1, df.value2)).show()

+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+

Contoh 3: Menghitung nilai yang berbeda dengan nama kolom sebagai string

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct("value1", "value2")).show()

+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-02-01