Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Mengelompokkan DataFrame menurut kolom yang ditentukan sehingga agregasi dapat dilakukan pada kolom tersebut. Lihat GroupedData untuk semua fungsi agregat yang tersedia.
Sintaksis
groupBy(*cols: "ColumnOrNameOrOrdinal")
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
cols |
daftar, str, int, atau Kolom | Kolom untuk dikelompokkan menurut. Setiap elemen dapat berupa nama kolom (string) atau ekspresi (Kolom) atau ordinal kolom (int, berbasis 1) atau daftarnya. |
Pengembalian Barang
GroupedData: Objek GroupedData yang mewakili data yang dikelompokkan menurut kolom yang ditentukan.
Catatan
Ordinal kolom dimulai dari 1, yang berbeda dari berbasis __getitem__0 .
Examples
df = spark.createDataFrame([
("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])
df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# | 2.75|
# +--------+
df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 9|
# +-----+--------+
df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 5|
# +-----+--------+
df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice| 2| 1|
# | Bob| 2| 2|
# | Bob| 5| 1|
# +-----+---+-----+