Bagikan melalui


API Panda pada Spark

Catatan

Fitur ini tersedia pada kluster yang menjalankan Databricks Runtime 10.0 (EoS) ke atas. Untuk kluster yang menjalankan Databricks Runtime 9.1 LTS ke bawah, gunakan Koalas sebagai gantinya.

Umumnya digunakan oleh para ilmuwan data, pandas adalah paket Python yang menyediakan struktur data yang praktis dan alat analisis data untuk bahasa pemrograman Python. Namun, pandas tidak mampu menangani data skala besar. API Pandas di Spark mengisi celah ini dengan menyediakan API setara pandas yang berfungsi pada Apache Spark. API Pandas di Spark tidak hanya berguna untuk pengguna pandas tetapi juga pengguna PySpark, karena API pandas di Spark mendukung banyak tugas yang sulit dilakukan dengan PySpark, misalnya merencanakan data langsung dari PySpark DataFrame.

Persyaratan

Pandas API di Spark tersedia sejak Apache Spark 3.2 (yang termasuk dalam Databricks Runtime 10.0 (EoS)) dengan menggunakan pernyataan berikut import:

import pyspark.pandas as ps

Buku catatan

Notebook berikut menunjukkan cara bermigrasi dari pandas ke pandas API di Spark.

pandas ke API pandas untuk notebook Spark

Dapatkan buku catatan

Sumber