Spark 기반 Pandas API

참고

이 기능은 Databricks Runtime 10.0(EoS) 이상을 실행하는 클러스터에서 사용할 수 있습니다. Databricks Runtime 9.1 LTS 이하를 실행하는 클러스터의 경우 대신 Koalas를 사용합니다.

데이터 과학자가 일반적으로 사용하는 pandas는 Python 프로그래밍 언어용으로 사용하기 쉬운 데이터 구조와 데이터 분석 도구를 제공하는 Python 패키지입니다. 그러나 pandas는 빅 데이터로 스케일 아웃되지 않습니다. Spark의 Pandas API는 Apache Spark에서 작동하는 pandas와 동등한 API를 제공하여 이 격차를 메웁니다. Spark의 Pandas API는 PySpark 사용자뿐만 아니라 PySpark 사용자에게도 유용합니다. Spark의 pandas API는 PySpark DataFrame에서 직접 데이터를 그리는 것과 같이 PySpark로 수행하기 어려운 많은 작업을 지원하기 때문입니다.

요구 사항

Apache Spark 3.2부터(이는 Databricks Runtime 10.0 (EoS)부터 포함됩니다) Spark 기반 Pandas API를 다음 import 문을 사용하여 사용할 수 있습니다.

import pyspark.pandas as ps

노트북

다음 노트북은 pandas에서 Spark의 Pandas API로 마이그레이션하는 방법을 보여줍니다.

pandas에서 Spark 기반 Pandas API 노트북으로 전환하기

노트북 가져오기

리소스

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-05-02

다음을 통해 공유

Spark 기반 Pandas API

요구 사항

노트북

pandas에서 Spark 기반 Pandas API 노트북으로 전환하기

리소스

피드백

추가 리소스