Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Grupuje ramkę danych według określonych kolumn, aby można było na nich przeprowadzić agregację. Zobacz, aby zapoznać się GroupedData ze wszystkimi dostępnymi funkcjami agregacji.
Składnia
groupBy(*cols: "ColumnOrNameOrOrdinal")
Parametry
| Parameter | Typ | Opis |
|---|---|---|
cols |
lista, str, int lub kolumna | Kolumny do grupowania według. Każdy element może być nazwą kolumny (ciąg) lub wyrażeniem (kolumna) albo porządkowym (int, 1) lub listą. |
Zwroty
GroupedData: Obiekt GroupedData reprezentujący pogrupowane dane według określonych kolumn.
Notatki
Porządkowa kolumna zaczyna się od 1, co różni się od 0 opartego __getitem__na .
Examples
df = spark.createDataFrame([
("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])
df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# | 2.75|
# +--------+
df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 9|
# +-----+--------+
df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 5|
# +-----+--------+
df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice| 2| 1|
# | Bob| 2| 2|
# | Bob| 5| 1|
# +-----+---+-----+