Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Set di metodi per le aggregazioni in un dataframe, creato da DataFrame.groupBy.
Supporta Spark Connect
Sintassi
DataFrame.groupBy(*cols)
Methods
| metodo | Descrizione |
|---|---|
agg(*exprs) |
Calcola le aggregazioni e restituisce il risultato come dataframe. Accetta un dizionario che esegue il mapping dei nomi di colonna per aggregare i nomi delle funzioni o un elenco di espressioni di colonna aggregate. |
avg(*cols) |
Calcola i valori medi per ogni colonna numerica per ogni gruppo.
mean è un alias. |
count() |
Conta il numero di record per ogni gruppo. |
max(*cols) |
Calcola il valore massimo per ogni colonna numerica per ogni gruppo. |
mean(*cols) |
Calcola i valori medi per ogni colonna numerica per ogni gruppo.
avg è un alias. |
min(*cols) |
Calcola il valore minimo per ogni colonna numerica per ogni gruppo. |
pivot(pivot_col, values) |
Pivot una colonna del dataframe corrente ed esegue l'aggregazione specificata. |
sum(*cols) |
Calcola la somma per ogni colonna numerica per ogni gruppo. |
Examples
df = spark.createDataFrame(
[(2, "Alice"), (3, "Alice"), (5, "Bob"), (10, "Bob")], ["age", "name"])
df.groupBy("name").count().sort("name").show()
+-----+-----+
| name|count|
+-----+-----+
|Alice| 2|
| Bob| 2|
+-----+-----+
from pyspark.sql import functions as sf
df.groupBy("name").agg(sf.min("age")).sort("name").show()
+-----+--------+
| name|min(age)|
+-----+--------+
|Alice| 2|
| Bob| 5|
+-----+--------+
df.groupBy("name").avg("age").sort("name").show()
+-----+--------+
| name|avg(age)|
+-----+--------+
|Alice| 2.5|
| Bob| 7.5|
+-----+--------+
from pyspark.sql import Row
df1 = spark.createDataFrame([
Row(course="dotNET", year=2012, earnings=10000),
Row(course="Java", year=2012, earnings=20000),
Row(course="dotNET", year=2013, earnings=48000),
Row(course="Java", year=2013, earnings=30000),
])
df1.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").sort("year").show()
+----+------+-----+
|year|dotNET| Java|
+----+------+-----+
|2012| 10000|20000|
|2013| 48000|30000|
+----+------+-----+