Referensi PySpark

Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.

Jenis data

Untuk daftar lengkap jenis data PySpark, lihat Jenis data PySpark.

Kelas

Reference Description
Katalog Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya.
Kolom Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi.
Jenis Data Jenis data yang tersedia di PySpark SQL, termasuk jenis primitif, jenis kompleks, dan jenis yang ditentukan pengguna.
DataFrame Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional.
DataFrameNaFunctions Fungsionalitas untuk bekerja dengan data yang hilang dalam DataFrame.
DataFrameReader Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal.
DataFrameStatFunctions Fungsionalitas untuk fungsi statistik dengan DataFrame.
DataFrameWriter Antarmuka yang digunakan untuk menulis DataFrame ke sistem penyimpanan eksternal.
DataFrameWriterV2 Antarmuka yang digunakan untuk menulis DataFrame ke penyimpanan eksternal (versi 2).
DataSource API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark.
DataSourceArrowWriter Kelas dasar untuk penulis sumber data yang memproses data menggunakan PyArrow's RecordBatch.
DataSourceRegistration Pembungkus untuk pendaftaran sumber data.
DataSourceReader Kelas dasar untuk pembaca sumber data.
DataSourceStreamArrowWriter Kelas dasar untuk penulis aliran data yang memproses data menggunakan PyArrow's RecordBatch.
DataSourceStreamReader Kelas dasar untuk pembaca sumber data streaming.
DataSourceStreamWriter Kelas dasar untuk penulis aliran data.
DataSourceWriter Kelas dasar untuk penulis sumber data yang bertanggung jawab untuk menyimpan data ke sumber data kustom dalam mode batch.
DataStreamReader Antarmuka yang digunakan untuk memuat DataFrame streaming dari sistem penyimpanan eksternal.
DataStreamWriter Antarmuka yang digunakan untuk menulis DataFrame streaming ke sistem penyimpanan eksternal.
Geografi Kelas untuk mewakili nilai Geografi dalam Python.
Geometri Kelas untuk mewakili nilai Geometri dalam Python.
GroupedData Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan.
InputPartition Kelas dasar yang mewakili partisi input yang dikembalikan oleh partitions() metode DataSourceReader.
Pengamatan Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging.
PlotAccessor Aksesor untuk fungsionalitas plot dataFrame di PySpark.
ProtoBuf Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol.
Mendayung Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual.
RuntimeConfig Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi.
Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat properti konfigurasi Set Spark pada Azure Databricks.
SimpleDataSourceStreamReader Kelas dasar untuk pembaca sumber data streaming yang disederhanakan yang membaca data dan merencanakan offset terbaru secara bersamaan.
SparkSession Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark.
Prosesor Stateful Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur.
StreamingQuery Handel ke kueri yang dijalankan terus menerus di latar belakang saat data baru tiba.
StreamingQueryListener Kelas abstrak untuk mendengarkan peristiwa siklus hidup kueri streaming.
StreamingQueryManager Mengelola semua instans aktif StreamingQuery yang terkait dengan SparkSession.
UserDefinedFunction (UDF) Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame.
UDFRegistration Pembungkus untuk pendaftaran fungsi yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udf.
UserDefinedTableFunction (UDTF) Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input.
UDTFRegistration Pembungkus untuk pendaftaran fungsi tabel yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udtf.
VariantVal Mewakili data semi-terstruktur dengan skema fleksibel, yang mendukung jenis dinamis dan struktur berlapis.
Jendela Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
WindowSpec Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
WriterCommitMessage Pesan penerapan yang dikembalikan oleh DataSourceWriter.write dan dikirim kembali ke driver sebagai parameter DataSourceWriter.commit input atau DataSourceWriter.abort.

Functions

Untuk daftar lengkap fungsi bawaan yang tersedia, lihat Fungsi PySpark.