Bagikan melalui


Referensi PySpark

Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.

Reference Description
Kelas Inti Kelas utama untuk bekerja dengan PySpark SQL, termasuk dasar-dasar SparkSession dan DataFrame.
Sesi Spark Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark.
Configuration Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi.
Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat Mengatur properti konfigurasi Spark di Azure Databricks.
DataFrame Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional.
Input/Output Metode untuk membaca data dari dan menulis data ke berbagai format file dan sumber data.
Kolom Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi.
Jenis Data Jenis data yang tersedia di PySpark SQL, termasuk jenis primitif, jenis kompleks, dan jenis yang ditentukan pengguna.
Mendayung Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual.
Fungsi Fungsi bawaan untuk operasi manipulasi, transformasi, dan agregasi data.
Jendela Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
Pengelompokan Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan.
Katalog Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya.
Avro Dukungan untuk membaca dan menulis data dalam format Apache Avro.
Pengamatan Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging.
UDF Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame.
UDTF Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input.
VariantVal Menangani data semi-terstruktur dengan skema fleksibel, mendukung jenis dinamis dan struktur berlapis.
ProtoBuf Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol.
Sumber Data Python API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark.
Prosesor Stateful Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur.