Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Catatan
Fitur ini tersedia pada kluster yang menjalankan Databricks Runtime 10.0 (EoS) ke atas. Untuk kluster yang menjalankan Databricks Runtime 9.1 LTS ke bawah, gunakan Koalas sebagai gantinya.
Umumnya digunakan oleh para ilmuwan data, pandas adalah paket Python yang menyediakan struktur data yang praktis dan alat analisis data untuk bahasa pemrograman Python. Namun, pandas tidak mampu menangani data skala besar. API Pandas di Spark mengisi celah ini dengan menyediakan API setara pandas yang berfungsi pada Apache Spark. API Pandas di Spark tidak hanya berguna untuk pengguna pandas tetapi juga pengguna PySpark, karena API pandas di Spark mendukung banyak tugas yang sulit dilakukan dengan PySpark, misalnya merencanakan data langsung dari PySpark DataFrame.
Persyaratan
Pandas API di Spark tersedia sejak Apache Spark 3.2 (yang termasuk dalam Databricks Runtime 10.0 (EoS)) dengan menggunakan pernyataan berikut import
:
import pyspark.pandas as ps
Buku catatan
Notebook berikut menunjukkan cara bermigrasi dari pandas ke pandas API di Spark.