숫자 및 문자열 열에 대한 기본 통계를 계산합니다.
문법
describe(*cols: Union[str, List[str]])
매개 변수
| 매개 변수 | 유형 | 설명 |
|---|---|---|
cols |
str, list, optional | 설명할 열 이름 또는 열 이름 목록(기본값은 모든 열)입니다. |
Returns
DataFrame: 지정된 DataFrame을 설명(통계 제공)하는 새 DataFrame입니다.
Notes
이 함수는 결과 DataFrame 스키마의 이전 버전과의 호환성을 보장하지 않으므로 예비 데이터 분석을 위한 것입니다.
확장된 통계에 요약을 사용하고 계산할 통계를 제어합니다.
예제
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+