PySpark 參考

本頁提供 PySpark 的參考概述，PySpark 是 Spark 的 Python API。欲了解更多 PySpark 資訊，請參閱 Azure Databricks 上的 PySpark。

數據類型

欲了解完整的 PySpark 資料型態清單，請參見 PySpark 資料型別。

班級

Reference	Description
目錄	管理資料庫、表格、函式及其他目錄元資料的介面。
欄	用於處理 DataFrame 欄位的操作，包括轉換與表達式。
數據類型	PySpark SQL 中可用的資料型態，包括原始型別、複雜型別及使用者自訂型別。
DataFrame	分散式資料集合，組織成命名欄位，類似關聯式資料庫中的表格。
DataFrameNaFunctions	處理資料框架中缺失資料的功能。
DataFrameReader	用於從外部儲存系統載入 DataFrame 的介面。
DataFrameStatFunctions	用於使用資料框架進行統計函數的功能。
DataFrameWriter	用於將資料框架寫入外部儲存系統的介面。
DataFrameWriterV2	用於將資料框架寫入外部儲存（版本 2）的介面。
DataSource	用於實作可從外部系統讀取的自訂資料來源的 API。關於自訂資料來源的資訊，請參見 PySpark 自訂資料來源。
資料來源箭寫手	一個為資料來源撰寫者設計的基礎類別，使用 PyArrow 的 `RecordBatch`。
資料來源註冊	一個用於資料來源註冊的包裝器。
DataSourceReader	一個用於資料來源讀取器的基底類別。
資料來源串流箭頭作家	一個用於資料串流寫入器的基底類別，使用 PyArrow 的 `RecordBatch`。
DataSourceStreamReader	一個用於串流資料來源讀取器的基底類別。
DataSourceStreamWriter	資料串流寫入器的基底類別。
DataSourceWriter	一個為資料來源撰寫者設計的基底類別，負責以批次方式將資料儲存到自訂資料來源。
DataStreamReader	介面用於從外部儲存系統載入串流資料框。
DataStreamWriter	用於將串流資料框架寫入外部儲存系統的介面。
地理	一個用來表示 Python 地理值的類別。
幾何學	一個用來表示 Python 中 Geometry 值的類別。
GroupedData	資料分組及對分組資料框架執行聚合操作的方法。
輸入分割	一個基底類別，代表輸入分割，透過 `partitions()` 的方法 `DataSourceReader`回傳。
觀測	在查詢執行時收集指標並觀察資料框架，以便監控與除錯。
情節輔助器	PySpark 中 DataFrame 繪圖功能的存取器。
ProtoBuf	支援使用協定緩衝區格式進行資料序列化與反序列化。
Row	代表資料幀中的一列資料，允許存取個別欄位值。
RuntimeConfig	Spark SQL 的執行時設定選項，包括執行與優化器設定。關於僅在 Databricks 上提供的設定資訊，請參閱 Azure Databricks 上的 Set Spark 設定屬性。
SimpleDataSourceStreamReader	一個簡化串流資料來源讀取器的基底類別，能同時讀取資料並規劃最新的偏移量。
SparkSession	在 PySpark 應用程式中讀取資料及執行 SQL 查詢的入口點。
有狀態處理器	在結構化串流中，跨批次管理複雜的有狀態操作。
StreamingQuery	一個在背景持續執行、隨著新資料到達而持續執行的查詢的代柄。
StreamingQueryListener	用於監聽串流查詢生命週期事件的抽象類別。
StreamingQueryManager	管理所有與 `StreamingQuery`. 相關聯的活躍`SparkSession`實例。
UserDefinedFunction （UDF）	使用者自訂函式，用於將自訂 Python 邏輯應用於 DataFrame 欄位。
UDFR申請	用於使用者自訂函數註冊的包裝器。此實例可由 `spark.udf`存取。
UserDefinedTableFunction （UDTF）	使用者自訂的表格函式，為每個輸入列回傳多列資料。
UDTFR申請	使用者自訂資料表函式註冊的包裝器。此實例可由 `spark.udtf`存取。
變體Val	代表具有彈性結構的半結構化資料，支援動態型態與巢狀結構。
窗	視窗函式用於在一組與當前資料列相關的資料表列間執行計算。
WindowSpec	視窗函式用於在一組與當前資料列相關的資料表列間執行計算。
WriterCommitMessage	由返回 `DataSourceWriter.write` 並以輸入參數 `DataSourceWriter.commitDataSourceWriter.abort`或返回給驅動程式的提交訊息。

Functions

欲了解完整的內建函式清單，請參見 PySpark 函式。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-23

PySpark 參考

數據類型

班級

Functions

意見反應

其他資源