Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
DataFrame'i belirtilen sütunlara göre gruplandırarak bunlar üzerinde toplama gerçekleştirilebilmesini sağlayın. Kullanılabilir tüm toplama işlevleri için bkz GroupedData .
Sözdizimi
groupBy(*cols: "ColumnOrNameOrOrdinal")
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
cols |
list, str, int veya Column | Gruplandırma ölçütü sütunları. Her öğe bir sütun adı (dize) veya ifade (Sütun) ya da sütun sıralı (int, 1 tabanlı) veya bunların listesi olabilir. |
İadeler
GroupedData: Belirtilen sütunlara göre gruplandırılmış verileri temsil eden bir GroupedData nesnesi.
Notlar
Sütun sıralı 1'den başlar ve bu, 0 tabanlı __getitem__'dan farklıdır.
Örnekler
df = spark.createDataFrame([
("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])
df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# | 2.75|
# +--------+
df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 9|
# +-----+--------+
df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 5|
# +-----+--------+
df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice| 2| 1|
# | Bob| 2| 2|
# | Bob| 5| 1|
# +-----+---+-----+