kelompokkanDengan

Mengelompokkan DataFrame menurut kolom yang ditentukan sehingga agregasi dapat dilakukan pada kolom tersebut. Lihat GroupedData untuk semua fungsi agregat yang tersedia.

Sintaksis

groupBy(*cols: "ColumnOrNameOrOrdinal")

Parameter-parameternya

Parameter Tipe Deskripsi
cols daftar, str, int, atau Kolom Kolom untuk dikelompokkan menurut. Setiap elemen dapat berupa nama kolom (string) atau ekspresi (Kolom) atau ordinal kolom (int, berbasis 1) atau daftarnya.

Pengembalian Barang

GroupedData: Objek GroupedData yang mewakili data yang dikelompokkan menurut kolom yang ditentukan.

Catatan

Ordinal kolom dimulai dari 1, yang berbeda dari berbasis __getitem__0 .

Examples

df = spark.createDataFrame([
    ("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])

df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# |    2.75|
# +--------+

df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice|       2|
# |  Bob|       9|
# +-----+--------+

df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice|       2|
# |  Bob|       5|
# +-----+--------+

df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice|  2|    1|
# |  Bob|  2|    2|
# |  Bob|  5|    1|
# +-----+---+-----+