利用指定的欄位為目前的資料框架建立多維立方體,允許對其進行聚合。
語法
cube(*cols: "ColumnOrName")
參數
| 參數 | 類型 | 說明 |
|---|---|---|
cols |
列表、力量、整數或欄位 | 立方體的列數。 每個元素應為欄位名稱(字串)、表達式(欄位)、列序數(int、以 1 為基礎)或其列表。 |
退貨
GroupedData:根據指定欄位的資料立方體。
Notes
列序數從 1 開始,這與基於 __getitem__0 的 不同。
Examples
df = spark.createDataFrame([("Alice", 2), ("Bob", 5)], schema=["name", "age"])
df.cube("name").count().orderBy("name").show()
# +-----+-----+
# | name|count|
# +-----+-----+
# | NULL| 2|
# |Alice| 1|
# | Bob| 1|
# +-----+-----+
df.cube("name", df.age).count().orderBy("name", "age").show()
# +-----+----+-----+
# | name| age|count|
# +-----+----+-----+
# | NULL|NULL| 2|
# | NULL| 2| 1|
# | NULL| 5| 1|
# |Alice|NULL| 1|
# |Alice| 2| 1|
# | Bob|NULL| 1|
# | Bob| 5| 1|
# +-----+----+-----+