moduł

Utwórz wielowymiarowy moduł dla bieżącej ramki danych przy użyciu określonych kolumn, co umożliwia wykonywanie na nich agregacji.

Składnia

cube(*cols: "ColumnOrName")

Parametry

Parameter Typ Opis
cols lista, str, int lub kolumna Kolumny do sześcianu według. Każdy element powinien być nazwą kolumny (ciąg) lub wyrażeniem (kolumna) lub porządkowym (int, 1) lub listą.

Zwroty

GroupedData: Moduł danych na podstawie określonych kolumn.

Notatki

Porządkowa kolumna zaczyna się od 1, co różni się od 0 opartego __getitem__na .

Examples

df = spark.createDataFrame([("Alice", 2), ("Bob", 5)], schema=["name", "age"])

df.cube("name").count().orderBy("name").show()
# +-----+-----+
# | name|count|
# +-----+-----+
# | NULL|    2|
# |Alice|    1|
# |  Bob|    1|
# +-----+-----+

df.cube("name", df.age).count().orderBy("name", "age").show()
# +-----+----+-----+
# | name| age|count|
# +-----+----+-----+
# | NULL|NULL|    2|
# | NULL|   2|    1|
# | NULL|   5|    1|
# |Alice|NULL|    1|
# |Alice|   2|    1|
# |  Bob|NULL|    1|
# |  Bob|   5|    1|
# +-----+----+-----+