什麼是 Photon？

本文說明在 Photon 查詢引擎上執行工作負載的優點。

Photon 是一款高效能的 Azure Databricks 原生向量化查詢引擎，能更快執行 SQL 工作負載和 DataFrame API 呼叫，降低每個工作負載的總成本。 Photon 與 Apache Spark API 相容，因此可與現有程式碼搭配使用。

Photon 功能

以下是使用 Photon 的主要特性和優點。

支援使用 Delta 和 Parquet 數據表進行 SQL 及相當於 DataFrame 的操作。
加速查詢，能更快地處理資料，並包含彙總和連接。
從磁碟快取重複存取資料時，效能更快。
具備許多欄位及許多小檔案之數據表的穩固掃描效能。
使用 UPDATE、DELETE、MERGE INTO、INSERT和 CREATE TABLE AS SELECT的快速 Delta 和 Parquet 撰寫，包括包含數千個數據行的寬數據表。
以雜湊聯結取代排序合併聯結。
對於 AI 和 ML 工作負載，Photon 使用 Spark SQL、Spark DataFrames、特徵工程、GraphFrames 和 xgboost4j 提高應用程式效能。

根據不同的計算類型，Photon 的啟用方式有所差異：

若要在所有用途和作業計算上啟用或停用 Photon，請選取計算 UI 中的 [使用 Photon 加速] 複選框。

在使用叢集 API 或作業 API 建立的任何計算上，預設不會啟用 Photon。若要啟用 Photon，您必須將 runtime_engine 屬性設定為 PHOTON。

Photon 支援司機節點和工作節點上的多種執行個體類型。 Photon 執行個體類型消耗 DBU 的速率與執行非 Photon 執行階段的相同執行個體類型不同。欲了解更多關於 Photon 實例與 DBU 消費的資訊，請參閱 Azure Databricks 價格頁面。

以下是 Photon 涵蓋的運算子、運算式和資料類型。

運營商

表達式

數據類型

以下是需要 Photon 的功能。

結構化串流：Photon 目前支援使用 Delta、Parquet、CSV 和 JSON 的無狀態串流。在寫入 Delta 或 Parquet 接收器時，支援 Kafka 和 Kinesis 無狀態串流。
Photon 不支援 UDF、RDD API 或資料集 API。
Photon 不會影響通常在兩秒內執行的查詢。

如果您的工作負載遇到不支援的作業，計算資源將切換到標準執行階段引擎來處理剩餘的工作負載。

此頁面對您有幫助嗎？