summary

Вычисляет указанную статистику для числовых и строковых столбцов. Доступные статистические данные: количество, среднее, stddev, min, max, произвольные приблизительные процентили, указанные в процентах (например, 75%).

Синтаксис

summary(*statistics: str)

Параметры

Параметр Тип Описание
statistics str, необязательный Имена столбцов для вычисления статистики (по умолчанию — все столбцы).

Возвраты

DataFrame: новый кадр данных, предоставляющий статистику для заданного кадра данных.

Примечания

Эта функция предназначена для анализа аналитических данных, так как мы не делаем никаких гарантий обратной совместимости схемы результирующего кадра данных.

Примеры

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+