Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.
Jenis data
Untuk daftar lengkap jenis data PySpark, lihat Jenis data PySpark.
Kelas
| Reference | Description |
|---|---|
| Katalog | Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya. |
| Kolom | Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi. |
| Jenis Data | Jenis data yang tersedia di PySpark SQL, termasuk jenis primitif, jenis kompleks, dan jenis yang ditentukan pengguna. |
| DataFrame | Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional. |
| DataFrameNaFunctions | Fungsionalitas untuk bekerja dengan data yang hilang dalam DataFrame. |
| DataFrameReader | Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal. |
| DataFrameStatFunctions | Fungsionalitas untuk fungsi statistik dengan DataFrame. |
| DataFrameWriter | Antarmuka yang digunakan untuk menulis DataFrame ke sistem penyimpanan eksternal. |
| DataFrameWriterV2 | Antarmuka yang digunakan untuk menulis DataFrame ke penyimpanan eksternal (versi 2). |
| DataSource | API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark. |
| DataSourceArrowWriter | Kelas dasar untuk penulis sumber data yang memproses data menggunakan PyArrow's RecordBatch. |
| DataSourceRegistration | Pembungkus untuk pendaftaran sumber data. |
| DataSourceReader | Kelas dasar untuk pembaca sumber data. |
| DataSourceStreamArrowWriter | Kelas dasar untuk penulis aliran data yang memproses data menggunakan PyArrow's RecordBatch. |
| DataSourceStreamReader | Kelas dasar untuk pembaca sumber data streaming. |
| DataSourceStreamWriter | Kelas dasar untuk penulis aliran data. |
| DataSourceWriter | Kelas dasar untuk penulis sumber data yang bertanggung jawab untuk menyimpan data ke sumber data kustom dalam mode batch. |
| DataStreamReader | Antarmuka yang digunakan untuk memuat DataFrame streaming dari sistem penyimpanan eksternal. |
| DataStreamWriter | Antarmuka yang digunakan untuk menulis DataFrame streaming ke sistem penyimpanan eksternal. |
| Geografi | Kelas untuk mewakili nilai Geografi dalam Python. |
| Geometri | Kelas untuk mewakili nilai Geometri dalam Python. |
| GroupedData | Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan. |
| InputPartition | Kelas dasar yang mewakili partisi input yang dikembalikan oleh partitions() metode DataSourceReader. |
| Pengamatan | Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging. |
| PlotAccessor | Aksesor untuk fungsionalitas plot dataFrame di PySpark. |
| ProtoBuf | Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol. |
| Mendayung | Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual. |
| RuntimeConfig | Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi. Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat properti konfigurasi Set Spark pada Azure Databricks. |
| SimpleDataSourceStreamReader | Kelas dasar untuk pembaca sumber data streaming yang disederhanakan yang membaca data dan merencanakan offset terbaru secara bersamaan. |
| SparkSession | Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark. |
| Prosesor Stateful | Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur. |
| StreamingQuery | Handel ke kueri yang dijalankan terus menerus di latar belakang saat data baru tiba. |
| StreamingQueryListener | Kelas abstrak untuk mendengarkan peristiwa siklus hidup kueri streaming. |
| StreamingQueryManager | Mengelola semua instans aktif StreamingQuery yang terkait dengan SparkSession. |
| UserDefinedFunction (UDF) | Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame. |
| UDFRegistration | Pembungkus untuk pendaftaran fungsi yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udf. |
| UserDefinedTableFunction (UDTF) | Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input. |
| UDTFRegistration | Pembungkus untuk pendaftaran fungsi tabel yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udtf. |
| VariantVal | Mewakili data semi-terstruktur dengan skema fleksibel, yang mendukung jenis dinamis dan struktur berlapis. |
| Jendela | Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini. |
| WindowSpec | Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini. |
| WriterCommitMessage | Pesan penerapan yang dikembalikan oleh DataSourceWriter.write dan dikirim kembali ke driver sebagai parameter DataSourceWriter.commit input atau DataSourceWriter.abort. |
Functions
Untuk daftar lengkap fungsi bawaan yang tersedia, lihat Fungsi PySpark.