groupingSets

지정된 그룹화 집합을 사용하여 현재 DataFrame에 대한 다차원 집계를 만들어 집계를 실행할 수 있습니다.

문법

groupingSets(groupingSets: Sequence[Sequence["ColumnOrName"]], *cols: "ColumnOrName")

매개 변수

매개 변수	유형	설명
`groupingSets`	열 또는 str 시퀀스의 시퀀스	그룹화할 개별 열 집합입니다.
`cols`	열 또는 str	사용자가 지정한 추가 그룹화 열입니다. 이러한 열은 집계 후 출력 열로 표시됩니다.

Returns

GroupedData: 지정된 열을 기준으로 데이터 집합을 그룹화합니다.

예제

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    (100, 'Fremont', 'Honda Civic', 10),
    (100, 'Fremont', 'Honda Accord', 15),
    (100, 'Fremont', 'Honda CRV', 7),
    (200, 'Dublin', 'Honda Civic', 20),
    (200, 'Dublin', 'Honda Accord', 10),
    (200, 'Dublin', 'Honda CRV', 3),
    (300, 'San Jose', 'Honda Civic', 5),
    (300, 'San Jose', 'Honda Accord', 8)
], schema="id INT, city STRING, car_model STRING, quantity INT")

df.groupingSets(
    [("city", "car_model"), ("city",), ()],
    "city", "car_model"
).agg(sf.sum(sf.col("quantity")).alias("sum")).sort("city", "car_model").show()
# +--------+------------+---+
# |    city|   car_model|sum|
# +--------+------------+---+
# |    NULL|        NULL| 78|
# |  Dublin|        NULL| 33|
# |  Dublin|Honda Accord| 10|
# |  Dublin|   Honda CRV|  3|
# |  Dublin| Honda Civic| 20|
# | Fremont|        NULL| 32|
# | Fremont|Honda Accord| 15|
# | Fremont|   Honda CRV|  7|
# | Fremont| Honda Civic| 10|
# |San Jose|        NULL| 13|
# |San Jose|Honda Accord|  8|
# |San Jose| Honda Civic|  5|
# +--------+------------+---+

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-19

groupingSets

문법

매개 변수

Returns

예제

피드백

추가 리소스