Share via


Spark 上的 Pandas API

注意

這項功能適用於執行 Databricks Runtime 10.0 (不支援) 和更新版本之叢集。 針對執行 Databricks Runtime 9.1 LTS 和以下的叢集,請改用 Koalas

pandas 通常由數據科學家使用,是 Python 套件,可提供適用於 Python 程式設計語言的易於使用的數據結構和數據分析工具。 不過,pandas 不會向外延展至巨量數據。 Spark 上的 Pandas API 藉由提供在 Apache Spark 上運作的 pandas 對等 API 來填補此空白。 Spark 上的 Pandas API 不僅適用於 pandas 使用者,而且適用於 PySpark 使用者,因為 Spark 上的 pandas API 支援許多使用 PySpark 難以執行的工作,例如直接從 PySpark 數據框架繪製數據。

需求

Spark 上的 Pandas API 可從 Apache Spark 3.2 開始提供(從 Databricks Runtime 10.0 (不支援)開始使用下列 import 語句:

import pyspark.pandas as ps

Notebook

下列筆記本示範如何在 Spark 上從 pandas 遷移至 pandas API。

Spark 筆記本上的 pandas 至 pandas API

取得筆記本

資源