sum_distinct

집계 함수: 식에서 고유 값의 합계를 반환합니다.

문법

from pyspark.sql import functions as sf

sf.sum_distinct(col)

매개 변수

매개 변수	유형	Description
`col`	`pyspark.sql.Column` 또는 str	계산할 대상 열입니다.

Returns

pyspark.sql.Column: 계산된 결과의 열입니다.

예시

예제 1: 모든 고유 값이 있는 열에서 sum_distinct 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()

+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                   10|
+---------------------+

예제 2: 고유 값이 없는 열에서 sum_distinct 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()

+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    1|
+---------------------+

예제 3: null 및 중복 값이 있는 열에서 sum_distinct 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()

+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    3|
+---------------------+

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-02-01

다음을 통해 공유

sum_distinct

문법

매개 변수

Returns

예시

피드백

추가 리소스