Referensi PySpark

Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.

Reference	Description
Kelas Inti	Kelas utama untuk bekerja dengan PySpark SQL, termasuk dasar-dasar SparkSession dan DataFrame.
Sesi Spark	Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark.
Configuration	Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi. Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat Mengatur properti konfigurasi Spark di Azure Databricks.
DataFrame	Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional.
Input/Output	Metode untuk membaca data dari dan menulis data ke berbagai format file dan sumber data.
Kolom	Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi.
Jenis Data	Jenis data yang tersedia di PySpark SQL, termasuk jenis primitif, jenis kompleks, dan jenis yang ditentukan pengguna.
Mendayung	Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual.
Fungsi	Fungsi bawaan untuk operasi manipulasi, transformasi, dan agregasi data.
Jendela	Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
Pengelompokan	Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan.
Katalog	Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya.
Avro	Dukungan untuk membaca dan menulis data dalam format Apache Avro.
Pengamatan	Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging.
UDF	Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame.
UDTF	Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input.
VariantVal	Menangani data semi-terstruktur dengan skema fleksibel, mendukung jenis dinamis dan struktur berlapis.
ProtoBuf	Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol.
Sumber Data Python	API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark.
Prosesor Stateful	Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-01-16

Bagikan melalui

Referensi PySpark

Saran dan Komentar

Sumber Daya Tambahan: