지정된 열을 사용하여 현재 DataFrame에 대한 다차원 큐브를 만들어 집계를 수행할 수 있습니다.
문법
cube(*cols: "ColumnOrName")
매개 변수
| 매개 변수 | 유형 | 설명 |
|---|---|---|
cols |
list, str, int 또는 Column | 큐브 기준 열입니다. 각 요소는 열 이름(문자열) 또는 식(열) 또는 열 서수(int, 1부터 시작) 또는 목록이어야 합니다. |
Returns
GroupedData: 지정된 열을 기반으로 하는 데이터의 큐브입니다.
Notes
열 서수는 0부터 __getitem__시작하는 열과 다른 1부터 시작합니다.
예제
df = spark.createDataFrame([("Alice", 2), ("Bob", 5)], schema=["name", "age"])
df.cube("name").count().orderBy("name").show()
# +-----+-----+
# | name|count|
# +-----+-----+
# | NULL| 2|
# |Alice| 1|
# | Bob| 1|
# +-----+-----+
df.cube("name", df.age).count().orderBy("name", "age").show()
# +-----+----+-----+
# | name| age|count|
# +-----+----+-----+
# | NULL|NULL| 2|
# | NULL| 2| 1|
# | NULL| 5| 1|
# |Alice|NULL| 1|
# |Alice| 2| 1|
# | Bob|NULL| 1|
# | Bob| 5| 1|
# +-----+----+-----+