집계 함수: 식에서 고유 값의 합계를 반환합니다.
문법
from pyspark.sql import functions as sf
sf.sum_distinct(col)
매개 변수
| 매개 변수 | 유형 | Description |
|---|---|---|
col |
pyspark.sql.Column 또는 str |
계산할 대상 열입니다. |
Returns
pyspark.sql.Column: 계산된 결과의 열입니다.
예시
예제 1: 모든 고유 값이 있는 열에서 sum_distinct 함수 사용
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 10|
+---------------------+
예제 2: 고유 값이 없는 열에서 sum_distinct 함수 사용
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 1|
+---------------------+
예제 3: null 및 중복 값이 있는 열에서 sum_distinct 함수 사용
from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 3|
+---------------------+