array_agg

중복된 개체 목록을 반환합니다.

문법

from pyspark.sql import functions as sf

sf.array_agg(col)

매개 변수

매개 변수	유형	Description
`col`	`pyspark.sql.Column` 또는 열 이름	계산할 대상 열입니다.

Returns

pyspark.sql.Column: 중복된 개체 목록입니다.

예시

예제 1: int 열에서 array_agg 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([[1],[1],[2]], ["c"])
df.agg(sf.sort_array(sf.array_agg('c')).alias('sorted_list')).show()

+-----------+
|sorted_list|
+-----------+
|  [1, 1, 2]|
+-----------+

예제 2: 문자열 열에서 array_agg 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([["apple"],["apple"],["banana"]], ["c"])
df.agg(sf.sort_array(sf.array_agg('c')).alias('sorted_list')).show(truncate=False)

+----------------------+
|sorted_list           |
+----------------------+
|[apple, apple, banana]|
+----------------------+

예제 3: null 값이 있는 열에서 array_agg 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([[1],[None],[2]], ["c"])
df.agg(sf.sort_array(sf.array_agg('c')).alias('sorted_list')).show()

+-----------+
|sorted_list|
+-----------+
|     [1, 2]|
+-----------+

예제 4: 데이터 형식이 다른 열에서 array_agg 함수 사용

from pyspark.sql import functions as sf
df = spark.createDataFrame([[1],["apple"],[2]], ["c"])
df.agg(sf.sort_array(sf.array_agg('c')).alias('sorted_list')).show()

+-------------+
|  sorted_list|
+-------------+
|[1, 2, apple]|
+-------------+

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-06-04

array_agg

문법

매개 변수

Returns

예시

피드백

추가 리소스