Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Вычисляет указанную статистику для числовых и строковых столбцов. Доступные статистические данные: количество, среднее, stddev, min, max, произвольные приблизительные процентили, указанные в процентах (например, 75%).
Синтаксис
summary(*statistics: str)
Параметры
| Параметр | Тип | Описание |
|---|---|---|
statistics |
str, необязательный | Имена столбцов для вычисления статистики (по умолчанию — все столбцы). |
Возвраты
DataFrame: новый кадр данных, предоставляющий статистику для заданного кадра данных.
Примечания
Эта функция предназначена для анализа аналитических данных, так как мы не делаем никаких гарантий обратной совместимости схемы результирующего кадра данных.
Примеры
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+