Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Sayısal ve dize sütunları için belirtilen istatistikleri hesaplar. Kullanılabilir istatistikler şunlardır: count, mean, stddev, min, max, arbitrary approximate percentiles specified as a percentage (ör. 75%).
Sözdizimi
summary(*statistics: str)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
statistics |
str, isteğe bağlı | İstatistikleri hesaplamak için kullanılacak sütun adları (varsayılan Tüm sütunlar). |
İadeler
DataFrame: Verilen DataFrame için istatistik sağlayan yeni bir DataFrame.
Notlar
Sonuçta elde edilen DataFrame şemasının geriye dönük uyumluluğu konusunda hiçbir garanti vermediğimiz için bu işlev keşif veri analizine yöneliktir.
Örnekler
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+