共用方式為


PySpark 參考

本頁提供 PySpark 的參考概述,PySpark 是一個針對 Spark 的 Python API。 欲了解更多 PySpark 資訊,請參閱 Azure Databricks 上的 PySpark

Reference Description
核心課程 主要用於處理 PySpark SQL 的主要類別,包括 SparkSession 和 DataFrame 的基礎知識。
Spark 會話 在 PySpark 應用程式中讀取資料及執行 SQL 查詢的入口點。
Configuration Spark SQL 的執行時設定選項,包括執行與優化器設定。
關於僅在 Databricks 上提供的設定資訊,請參閱 Azure Databricks 上的 Set Spark 設定屬性
DataFrame 分散式資料集合,組織成命名欄位,類似關聯式資料庫中的表格。
輸入/輸出 從各種檔案格式及資料來源讀取及寫入資料的方法。
用於處理 DataFrame 欄位的操作,包括轉換與表達式。
數據類型 PySpark SQL 中可用的資料型態,包括原始型別、複雜型別及使用者自訂型別。
Row 代表資料幀中的一列資料,允許存取個別欄位值。
函數 內建資料操作、轉換與聚合操作的功能。
視窗函式用於在一組與當前資料列相關的資料表列間執行計算。
群組 資料分組及對分組資料框架執行聚合操作的方法。
目錄 管理資料庫、表格、函式及其他目錄元資料的介面。
Avro 支援以 Apache Avro 格式讀寫資料。
觀測 在查詢執行時收集指標並觀察資料框架,以便監控與除錯。
聯合民主陣線 使用者自訂函式,用於將自訂 Python 邏輯套用到 DataFrame 欄位。
UDTF 使用者自訂的表格函式,為每個輸入列回傳多列資料。
變體Val 以彈性結構處理半結構化資料,支援動態型別與巢狀結構。
ProtoBuf 支援使用協定緩衝區格式進行資料序列化與反序列化。
Python 資料來源 用於實作可從外部系統讀取的自訂資料來源的 API。 關於自訂資料來源的資訊,請參見 PySpark 自訂資料來源
有狀態處理器 在結構化串流中,跨批次管理複雜的有狀態操作。