Spark 上の Pandas API
注意
この機能は、Databricks Runtime 10.0 (サポート対象外) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行しているクラスターの場合は、代わりに Koalas を使用します。
データ サイエンティストによってよく使用されている pandas は、Python プログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供する Python パッケージです。 ただし、pandas はビッグ データにスケールアウトしません。 Spark 上の pandas API では、Apache Spark 上で機能する pandas と同等の API を提供することで、このギャップを埋めています。 Spark 上の pandas API は、pandas ユーザーだけでなく、PySpark ユーザーにも役立ちます。Spark 上の pandas API では、PySpark データフレームから直接データをプロットするなど、PySpark で行うのが難しい多くのタスクがサポートされているためです。
必要条件
Spark 上の Pandas API は、次の import
のステートメントを使用して、Apache Spark 3.2 (Databricks Runtime 10.0 (サポート対象外) 以降に含まれています) で使用できます:
import pyspark.pandas as ps
ノートブック
次のノートブックは、Spark 上で pandas から pandas API に移行する方法を示しています。
「Spark 上の pandas から pandas API」ノートブック
リソース
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示