Spark 上の Pandas API

注

この機能は、Databricks Runtime 10.0 (サポート期間終了) 以降を実行しているクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行しているクラスターの場合は、代わりに Koalas を使用します。

データサイエンティストによってよく使用されている pandas は、Python プログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供する Python パッケージです。ただし、pandas はビッグデータにスケールアウトしません。 Spark 上の pandas API では、Apache Spark 上で機能する pandas と同等の API を提供することで、このギャップを埋めています。 Spark 上の pandas API は、pandas ユーザーだけでなく、PySpark ユーザーにも役立ちます。Spark 上の pandas API では、PySpark データフレームから直接データをプロットするなど、PySpark で行うのが難しい多くのタスクがサポートされているためです。

要件

Spark 上の pandas API は、Apache Spark 3.2（Databricks Runtime 10.0（EoS）に含まれています）から次のimport ステートメントを使用することにより利用可能です。

import pyspark.pandas as ps

Notebook

次のノートブックは、Spark 上で pandas から pandas API に移行する方法を示しています。

「Spark 上の pandas から pandas API」ノートブック

ノートブックを入手

リソース

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-12-04