PySpark 參考

本頁提供 PySpark 的參考概述,PySpark 是 Spark 的 Python API。 欲了解更多 PySpark 資訊,請參閱 Azure Databricks 上的 PySpark。

數據類型

欲了解完整的 PySpark 資料型態清單,請參見 PySpark 資料型別

班級

Reference Description
目錄 管理資料庫、表格、函式及其他目錄元資料的介面。
用於處理 DataFrame 欄位的操作,包括轉換與表達式。
數據類型 PySpark SQL 中可用的資料型態,包括原始型別、複雜型別及使用者自訂型別。
DataFrame 分散式資料集合,組織成命名欄位,類似關聯式資料庫中的表格。
DataFrameNaFunctions 處理資料框架中缺失資料的功能。
DataFrameReader 用於從外部儲存系統載入 DataFrame 的介面。
DataFrameStatFunctions 用於使用資料框架進行統計函數的功能。
DataFrameWriter 用於將資料框架寫入外部儲存系統的介面。
DataFrameWriterV2 用於將資料框架寫入外部儲存(版本 2)的介面。
DataSource 用於實作可從外部系統讀取的自訂資料來源的 API。 關於自訂資料來源的資訊,請參見 PySpark 自訂資料來源
資料來源箭寫手 一個為資料來源撰寫者設計的基礎類別,使用 PyArrow 的 RecordBatch
資料來源註冊 一個用於資料來源註冊的包裝器。
DataSourceReader 一個用於資料來源讀取器的基底類別。
資料來源串流箭頭作家 一個用於資料串流寫入器的基底類別,使用 PyArrow 的 RecordBatch
DataSourceStreamReader 一個用於串流資料來源讀取器的基底類別。
DataSourceStreamWriter 資料串流寫入器的基底類別。
DataSourceWriter 一個為資料來源撰寫者設計的基底類別,負責以批次方式將資料儲存到自訂資料來源。
DataStreamReader 介面用於從外部儲存系統載入串流資料框。
DataStreamWriter 用於將串流資料框架寫入外部儲存系統的介面。
地理 一個用來表示 Python 地理值的類別。
幾何學 一個用來表示 Python 中 Geometry 值的類別。
GroupedData 資料分組及對分組資料框架執行聚合操作的方法。
輸入分割 一個基底類別,代表輸入分割,透過 partitions() 的方法 DataSourceReader回傳。
觀測 在查詢執行時收集指標並觀察資料框架,以便監控與除錯。
情節輔助器 PySpark 中 DataFrame 繪圖功能的存取器。
ProtoBuf 支援使用協定緩衝區格式進行資料序列化與反序列化。
Row 代表資料幀中的一列資料,允許存取個別欄位值。
RuntimeConfig Spark SQL 的執行時設定選項,包括執行與優化器設定。
關於僅在 Databricks 上提供的設定資訊,請參閱 Azure Databricks 上的 Set Spark 設定屬性。
SimpleDataSourceStreamReader 一個簡化串流資料來源讀取器的基底類別,能同時讀取資料並規劃最新的偏移量。
SparkSession 在 PySpark 應用程式中讀取資料及執行 SQL 查詢的入口點。
有狀態處理器 在結構化串流中,跨批次管理複雜的有狀態操作。
StreamingQuery 一個在背景持續執行、隨著新資料到達而持續執行的查詢的代柄。
StreamingQueryListener 用於監聽串流查詢生命週期事件的抽象類別。
StreamingQueryManager 管理所有與 StreamingQuery. 相關聯的活躍SparkSession實例。
UserDefinedFunction (UDF) 使用者自訂函式,用於將自訂 Python 邏輯應用於 DataFrame 欄位。
UDFR申請 用於使用者自訂函數註冊的包裝器。 此實例可由 spark.udf存取。
UserDefinedTableFunction (UDTF) 使用者自訂的表格函式,為每個輸入列回傳多列資料。
UDTFR申請 使用者自訂資料表函式註冊的包裝器。 此實例可由 spark.udtf存取。
變體Val 代表具有彈性結構的半結構化資料,支援動態型態與巢狀結構。
視窗函式用於在一組與當前資料列相關的資料表列間執行計算。
WindowSpec 視窗函式用於在一組與當前資料列相關的資料表列間執行計算。
WriterCommitMessage 由 返回 DataSourceWriter.write 並以輸入參數 DataSourceWriter.commitDataSourceWriter.abort或 返回給驅動程式的提交訊息。

Functions

欲了解完整的內建函式清單,請參見 PySpark 函式