本頁提供 PySpark 的參考概述,PySpark 是一個針對 Spark 的 Python API。 欲了解更多 PySpark 資訊,請參閱 Azure Databricks 上的 PySpark。
| Reference | Description |
|---|---|
| 核心課程 | 主要用於處理 PySpark SQL 的主要類別,包括 SparkSession 和 DataFrame 的基礎知識。 |
| Spark 會話 | 在 PySpark 應用程式中讀取資料及執行 SQL 查詢的入口點。 |
| Configuration | Spark SQL 的執行時設定選項,包括執行與優化器設定。 關於僅在 Databricks 上提供的設定資訊,請參閱 Azure Databricks 上的 Set Spark 設定屬性。 |
| DataFrame | 分散式資料集合,組織成命名欄位,類似關聯式資料庫中的表格。 |
| 輸入/輸出 | 從各種檔案格式及資料來源讀取及寫入資料的方法。 |
| 欄 | 用於處理 DataFrame 欄位的操作,包括轉換與表達式。 |
| 數據類型 | PySpark SQL 中可用的資料型態,包括原始型別、複雜型別及使用者自訂型別。 |
| Row | 代表資料幀中的一列資料,允許存取個別欄位值。 |
| 函數 | 內建資料操作、轉換與聚合操作的功能。 |
| 窗 | 視窗函式用於在一組與當前資料列相關的資料表列間執行計算。 |
| 群組 | 資料分組及對分組資料框架執行聚合操作的方法。 |
| 目錄 | 管理資料庫、表格、函式及其他目錄元資料的介面。 |
| Avro | 支援以 Apache Avro 格式讀寫資料。 |
| 觀測 | 在查詢執行時收集指標並觀察資料框架,以便監控與除錯。 |
| 聯合民主陣線 | 使用者自訂函式,用於將自訂 Python 邏輯套用到 DataFrame 欄位。 |
| UDTF | 使用者自訂的表格函式,為每個輸入列回傳多列資料。 |
| 變體Val | 以彈性結構處理半結構化資料,支援動態型別與巢狀結構。 |
| ProtoBuf | 支援使用協定緩衝區格式進行資料序列化與反序列化。 |
| Python 資料來源 | 用於實作可從外部系統讀取的自訂資料來源的 API。 關於自訂資料來源的資訊,請參見 PySpark 自訂資料來源。 |
| 有狀態處理器 | 在結構化串流中,跨批次管理複雜的有狀態操作。 |