Spark 기반 Pandas API
참고 항목
이 기능은 Databricks Runtime 10.0(EoS) 이상을 실행하는 클러스터에서 사용할 수 있습니다. Databricks Runtime 9.1 LTS 이하를 실행하는 클러스터의 경우 대신 Koalas를 사용합니다.
데이터 과학자가 일반적으로 사용하는 pandas는 Python 프로그래밍 언어용으로 사용하기 쉬운 데이터 구조와 데이터 분석 도구를 제공하는 Python 패키지입니다. 그러나 pandas는 빅 데이터로 스케일 아웃되지 않습니다. Spark의 Pandas API는 Apache Spark에서 작동하는 pandas와 동등한 API를 제공하여 이 격차를 메웁니다. Spark의 Pandas API는 PySpark 사용자뿐만 아니라 PySpark 사용자에게도 유용합니다. Spark의 pandas API는 PySpark DataFrame에서 직접 데이터를 그리는 것과 같이 PySpark로 수행하기 어려운 많은 작업을 지원하기 때문입니다.
요구 사항
Spark 기반 Pandas API는 다음 import
문을 사용하여 Apache Spark 3.2(Databricks Runtime 10.0(EoS)부터 포함)부터 사용할 수 있습니다:
import pyspark.pandas as ps
Notebook
다음 Notebook은 Spark 기반 Pandas API에서 pandas API로 마이그레이션하는 방법을 보여 줍니다.