Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.
| Reference | Description |
|---|---|
| Kelas Inti | Kelas utama untuk bekerja dengan PySpark SQL, termasuk dasar-dasar SparkSession dan DataFrame. |
| Sesi Spark | Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark. |
| Configuration | Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi. Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat Mengatur properti konfigurasi Spark di Azure Databricks. |
| DataFrame | Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional. |
| Input/Output | Metode untuk membaca data dari dan menulis data ke berbagai format file dan sumber data. |
| Kolom | Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi. |
| Jenis Data | Jenis data yang tersedia di PySpark SQL, termasuk jenis primitif, jenis kompleks, dan jenis yang ditentukan pengguna. |
| Mendayung | Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual. |
| Fungsi | Fungsi bawaan untuk operasi manipulasi, transformasi, dan agregasi data. |
| Jendela | Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini. |
| Pengelompokan | Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan. |
| Katalog | Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya. |
| Avro | Dukungan untuk membaca dan menulis data dalam format Apache Avro. |
| Pengamatan | Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging. |
| UDF | Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame. |
| UDTF | Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input. |
| VariantVal | Menangani data semi-terstruktur dengan skema fleksibel, mendukung jenis dinamis dan struktur berlapis. |
| ProtoBuf | Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol. |
| Sumber Data Python | API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark. |
| Prosesor Stateful | Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur. |