Referensi PySpark

Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.

Jenis data

Untuk daftar lengkap jenis data PySpark, lihat Jenis data PySpark.

Kelas

DataFrame

Reference	Description
Kolom	Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi.
DataFrame	Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional.
DataFrameNaFunctions	Fungsionalitas untuk bekerja dengan data yang hilang dalam DataFrame.
DataFrameReader	Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal.
DataFrameStatFunctions	Fungsionalitas untuk fungsi statistik dengan DataFrame.
DataFrameWriter	Antarmuka yang digunakan untuk menulis DataFrame ke sistem penyimpanan eksternal.
DataFrameWriterV2	Antarmuka yang digunakan untuk menulis DataFrame ke penyimpanan eksternal (versi 2).
GroupedData	Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan.
Mendayung	Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual.

Sumber data kustom

Reference	Description
DataSource	API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark.
DataSourceArrowWriter	Kelas dasar untuk penulis sumber data yang memproses data menggunakan PyArrow's `RecordBatch`.
DataSourceRegistration	Pembungkus untuk pendaftaran sumber data.
DataSourceReader	Kelas dasar untuk pembaca sumber data.
DataSourceStreamArrowWriter	Kelas dasar untuk penulis aliran data yang memproses data menggunakan PyArrow's `RecordBatch`.
DataSourceStreamReader	Kelas dasar untuk pembaca sumber data streaming.
DataSourceStreamWriter	Kelas dasar untuk penulis aliran data.
DataSourceWriter	Kelas dasar untuk penulis sumber data yang bertanggung jawab untuk menyimpan data ke sumber data kustom dalam mode batch.
InputPartition	Kelas dasar yang mewakili partisi input yang dikembalikan oleh `partitions()` metode `DataSourceReader`.
SimpleDataSourceStreamReader	Kelas dasar untuk pembaca sumber data streaming yang disederhanakan yang membaca data dan merencanakan offset terbaru secara bersamaan.
WriterCommitMessage	Pesan penerapan yang dikembalikan oleh `DataSourceWriter.write` dan dikirim kembali ke driver sebagai parameter `DataSourceWriter.commit` input atau `DataSourceWriter.abort`.

Streaming Terstruktur

Reference	Description
DataStreamReader	Antarmuka yang digunakan untuk memuat DataFrame streaming dari sistem penyimpanan eksternal.
DataStreamWriter	Antarmuka yang digunakan untuk menulis DataFrame streaming ke sistem penyimpanan eksternal.
Prosesor Stateful	Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur.
StreamingQuery	Handel ke kueri yang dijalankan terus menerus di latar belakang saat data baru tiba.
StreamingQueryListener	Kelas abstrak untuk mendengarkan peristiwa siklus hidup kueri streaming.
StreamingQueryManager	Mengelola semua instans aktif `StreamingQuery` yang terkait dengan `SparkSession`.

Fungsi yang ditentukan pengguna

Reference	Description
UserDefinedFunction (UDF)	Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame.
UDFRegistration	Pembungkus untuk pendaftaran fungsi yang ditentukan pengguna. Instans ini dapat diakses oleh `spark.udf`.
UserDefinedTableFunction (UDTF)	Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input.
UDTFRegistration	Pembungkus untuk pendaftaran fungsi tabel yang ditentukan pengguna. Instans ini dapat diakses oleh `spark.udtf`.

Kelas inti lainnya

Reference	Description
Katalog	Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya.
Geografi	Kelas untuk mewakili nilai Geografi dalam Python.
Geometri	Kelas untuk mewakili nilai Geometri dalam Python.
Pengamatan	Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging.
PlotAccessor	Aksesor untuk fungsionalitas plot dataFrame di PySpark.
ProtoBuf	Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol.
RuntimeConfig	Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi. Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat properti konfigurasi Set Spark pada Azure Databricks.
SparkSession	Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark.
VariantVal	Mewakili data semi-terstruktur dengan skema fleksibel, yang mendukung jenis dinamis dan struktur berlapis.
Jendela	Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
WindowSpec	Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.

Functions

Untuk daftar lengkap fungsi bawaan yang tersedia, lihat Fungsi PySpark.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-05-03