Referensi PySpark

Halaman ini menyediakan gambaran umum referensi yang tersedia untuk PySpark, API Python untuk Spark. Untuk informasi selengkapnya tentang PySpark, lihat PySpark di Azure Databricks.

Jenis data

Untuk daftar lengkap jenis data PySpark, lihat Jenis data PySpark.

Kelas

DataFrame

Reference Description
Kolom Operasi untuk bekerja dengan kolom DataFrame, termasuk transformasi dan ekspresi.
DataFrame Pengumpulan data terdistribusi diatur ke dalam kolom bernama, mirip dengan tabel dalam database relasional.
DataFrameNaFunctions Fungsionalitas untuk bekerja dengan data yang hilang dalam DataFrame.
DataFrameReader Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal.
DataFrameStatFunctions Fungsionalitas untuk fungsi statistik dengan DataFrame.
DataFrameWriter Antarmuka yang digunakan untuk menulis DataFrame ke sistem penyimpanan eksternal.
DataFrameWriterV2 Antarmuka yang digunakan untuk menulis DataFrame ke penyimpanan eksternal (versi 2).
GroupedData Metode untuk mengelompokkan data dan melakukan operasi agregasi pada DataFrames yang dikelompokkan.
Mendayung Mewakili baris data dalam DataFrame, menyediakan akses ke nilai bidang individual.

Sumber data kustom

Reference Description
DataSource API untuk menerapkan sumber data kustom untuk dibaca dari sistem eksternal. Untuk informasi tentang sumber data kustom, lihat Sumber data kustom PySpark.
DataSourceArrowWriter Kelas dasar untuk penulis sumber data yang memproses data menggunakan PyArrow's RecordBatch.
DataSourceRegistration Pembungkus untuk pendaftaran sumber data.
DataSourceReader Kelas dasar untuk pembaca sumber data.
DataSourceStreamArrowWriter Kelas dasar untuk penulis aliran data yang memproses data menggunakan PyArrow's RecordBatch.
DataSourceStreamReader Kelas dasar untuk pembaca sumber data streaming.
DataSourceStreamWriter Kelas dasar untuk penulis aliran data.
DataSourceWriter Kelas dasar untuk penulis sumber data yang bertanggung jawab untuk menyimpan data ke sumber data kustom dalam mode batch.
InputPartition Kelas dasar yang mewakili partisi input yang dikembalikan oleh partitions() metode DataSourceReader.
SimpleDataSourceStreamReader Kelas dasar untuk pembaca sumber data streaming yang disederhanakan yang membaca data dan merencanakan offset terbaru secara bersamaan.
WriterCommitMessage Pesan penerapan yang dikembalikan oleh DataSourceWriter.write dan dikirim kembali ke driver sebagai parameter DataSourceWriter.commit input atau DataSourceWriter.abort.

Streaming Terstruktur

Reference Description
DataStreamReader Antarmuka yang digunakan untuk memuat DataFrame streaming dari sistem penyimpanan eksternal.
DataStreamWriter Antarmuka yang digunakan untuk menulis DataFrame streaming ke sistem penyimpanan eksternal.
Prosesor Stateful Mengelola status di seluruh batch streaming untuk operasi stateful yang kompleks dalam streaming terstruktur.
StreamingQuery Handel ke kueri yang dijalankan terus menerus di latar belakang saat data baru tiba.
StreamingQueryListener Kelas abstrak untuk mendengarkan peristiwa siklus hidup kueri streaming.
StreamingQueryManager Mengelola semua instans aktif StreamingQuery yang terkait dengan SparkSession.

Fungsi yang ditentukan pengguna

Reference Description
UserDefinedFunction (UDF) Fungsi yang ditentukan pengguna untuk menerapkan logika Python kustom ke kolom DataFrame.
UDFRegistration Pembungkus untuk pendaftaran fungsi yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udf.
UserDefinedTableFunction (UDTF) Fungsi tabel yang ditentukan pengguna yang mengembalikan beberapa baris untuk setiap baris input.
UDTFRegistration Pembungkus untuk pendaftaran fungsi tabel yang ditentukan pengguna. Instans ini dapat diakses oleh spark.udtf.

Kelas inti lainnya

Reference Description
Katalog Antarmuka untuk mengelola database, tabel, fungsi, dan metadata katalog lainnya.
Geografi Kelas untuk mewakili nilai Geografi dalam Python.
Geometri Kelas untuk mewakili nilai Geometri dalam Python.
Pengamatan Mengumpulkan metrik dan mengamati DataFrames selama eksekusi kueri untuk pemantauan dan debugging.
PlotAccessor Aksesor untuk fungsionalitas plot dataFrame di PySpark.
ProtoBuf Dukungan untuk menserialisasikan dan mendeserialisasi data menggunakan format Buffer Protokol.
RuntimeConfig Opsi konfigurasi runtime untuk Spark SQL, termasuk pengaturan eksekusi dan pengaturan optimasi.
Untuk informasi tentang konfigurasi yang hanya tersedia di Databricks, lihat properti konfigurasi Set Spark pada Azure Databricks.
SparkSession Titik masuk untuk membaca data dan menjalankan kueri SQL dalam aplikasi PySpark.
VariantVal Mewakili data semi-terstruktur dengan skema fleksibel, yang mendukung jenis dinamis dan struktur berlapis.
Jendela Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.
WindowSpec Fungsi jendela untuk melakukan penghitungan di seluruh sekumpulan baris tabel yang terkait dengan baris saat ini.

Functions

Untuk daftar lengkap fungsi bawaan yang tersedia, lihat Fungsi PySpark.