Fabric 中的 Apache Spark 執行階段

Microsoft Fabric 執行時間是以 Apache Spark 為基礎的 Azure 整合平臺，可執行和管理資料工程和資料科學體驗。它會結合內部和開放原始碼來源的重要元件，為客戶提供完整的解決方案。為了簡單起見，我們將 Microsoft Fabric 執行階段稱為由 Apache Spark 提供的 Fabric 執行階段。

Fabric 執行階段的主要元件：

Apache Spark - 功能強大的開放原始碼分散式運算連結庫，可進行大規模的資料處理和分析工作。 Apache Spark 為資料工程和資料科學體驗提供多功能且高效能的平臺。
Delta Lake - 一個開放原始碼儲存層，為 Apache Spark 帶來 ACID 異動和其他資料可靠性功能。 Delta Lake 已整合在 Fabric 執行階段內，可增強資料處理功能，並確保跨多個並行作業的資料一致性。
原生執行引擎 - 是 Apache Spark 工作負載的轉換增強功能，可直接在 Lakehouse 基礎結構上執行 Spark 查詢來提供顯著的效能提升。無縫整合，不需要變更程式碼，並避免供應商綁定，在運行時間 1.3（Spark 3.5）中透過 Apache Spark API 支援 Parquet 和 Delta 格式。此引擎可提升查詢的速度比傳統 OSS Spark 快四倍，如 TPC-DS 1TB 基準檢驗所示，降低營運成本，並提升各種數據工作的效率，包括數據擷取、ETL、分析和互動式查詢。它建立在 Meta 的 Velox 和 Intel 的 Apache Gluten 之上，優化資源使用，同時處理多元的資料處理情境。
Java/Scala、Python 和 R 的預設層級套件 - 支援各種程式設計語言和環境的套件。這些套件會自動安裝並設定，讓開發人員套用其慣用的程式設計語言來進行資料處理工作。
Microsoft Fabric 執行階段是以強固的開放原始碼操作系統為基礎，確保與各種硬體組態和系統需求相容。

在下方，您可以找到主要元件的完整比較，這些元件包括 Apache Spark 版本、支援的作業系統、Java、Scala、Python、Delta Lake 和 R，這些元件適用於 Microsoft Fabric 平台內的 Apache Spark 型執行時間。

提示

務必使用最新且普遍可用 (GA) 的執行階段版本，目前是執行階段 1.3。

元件	運行時間 1.2	運行時間 1.3	執行時間 2.0
發行階段	EOSA	GA	實驗性（預覽）
Apache Spark 版本	3.4.1	3.5.5	4.0.0
作業系統	水手 2.0	水手 2.0	水手3.0
Java 版本	11	11	21
Scala 版本	2.12.17	2.12.17	2.13.16
Python 版本	3.10	3.11	3.12.11
三角洲湖版本	2.4.0	3.2	4.0.0

請造訪 Runtime 1.2、 Runtime 1.3 或 Runtime 2.0 ，探索該版本的細節、新功能、改進與遷移情境。

網狀架構最佳化

在 Microsoft Fabric 中，Spark 引擎和 Delta Lake 實作都會納入平臺特定的最佳化和功能。這些功能的設計目的是在平臺中使用原生整合。請務必注意，您可以停用所有這些功能，以達到標準 Spark 和 Delta Lake 功能。 Apache Spark 的 Fabric 執行環境包含：

Apache Spark 的完整開放原始碼版本。
近 100 個內建、相異查詢效能增強的集合。這些增強功能包括資料分割快取等功能（讓 FileSystem 資料分割快取減少中繼存放區呼叫），以及交叉聯結至純量子查詢的投影。
內建智慧型快取。

在 Apache Spark 和 Delta Lake 的 Fabric 執行階段中，有兩個主要用途的原生寫入器功能：

它們為撰寫負載提供差異化的效能，以最佳化撰寫流程。
它們會預設為 Delta Parquet 檔案進行 V-Order（V 順序）最佳化。 Delta Lake V 順序最佳化對於在所有網狀架構引擎上提供絕佳的讀取效能至關重要。若要深入瞭解其運作方式及管理方式，請參閱 Delta Lake 資料表最佳化和 V-Order 上的專用文章。

多個執行階段支援

Fabric 支援多個執行階段，讓使用者能夠彈性地在它們之間順暢地切換，將不相容或中斷的風險降到最低。

預設情況下，所有新工作區都使用最新的 GA 執行版本，目前為 Runtime 1.3。

若要變更工作區層級的運行時間版本，請移至 工作區設定>Data Engineering/Science>Spark 設定。從 [環境] 索引標籤中，從可用的選項中選取所需的運行時間版本。選擇 [儲存] 以確認您的選擇。

進行這項變更之後，工作區內的所有系統建立項目，包括 Lakehouses、SJD 和 Notebooks，將會使用從下一個 Spark 工作階段開始的新選取工作區層級執行階段版本運作。如果您目前正在使用筆記本進行某個作業或任何 lakehouse 相關活動，那麼該 Spark 工作階段將會持續保持現狀。不過，從下一個工作階段或作業開始，將會套用選取的執行階段版本。

此外，若要在項目層級更改執行時間Environment，請在執行下拉選單中建立新的環境項目，或開啟現有的項目，從可用的選項中選擇你想要的運行時版本，然後Save確認並Publish儲存你的變更。接下來，你可以將此 Environment 項目用於你的 Notebook 或 Spark Job Definition。

Spark 設定上執行階段變更的後果

一般而言，我們的目標是移轉所有Spark設定。不過，如果我們識別Spark設定與執行階段 B 不相容，我們會發出警告訊息，避免實作設定。

執行階段變更對程式庫管理的影響

一般而言，我們的方法是將所有連結庫從執行階段 A 遷移至執行階段 B，包括公用和自定義執行階段。如果 Python 和 R 版本保持不變，連結庫應該正常運作。然而，對於 Jars，它們很可能會因為相依關係的變更，以及 Scala、Java、Spark 和作業系統的變動等因素而無法運作。

使用者負責更新或替換任何不支援執行時 B 的函式庫。如果發生衝突，也就是說執行時 B 包含了執行時 A 原本定義的函式庫，我們的函式庫管理系統會根據使用者的設定，嘗試建立執行時 B 所需的相依關係。然而，若發生衝突，建構過程即告失敗。在錯誤記錄檔中，使用者可以查看哪些連結庫造成衝突，並調整其版本或規格。

升級 Delta Lake 通訊協定

Delta Lake 功能一律與回溯相容，確保以較低 Delta Lake 版本建立的資料表可以順暢地與較高版本互動。然而，當某些功能啟用（例如透過方法 delta.upgradeTableProtocol(minReaderVersion, minWriterVersion) ），可能會影響與較低階 Delta Lake 版本的前向相容性。在這種情況下，必須修改參考升級資料表的工作負載，以符合維護相容性的 Delta Lake 版本。

每個 Delta 資料表都會與通訊協定規格相關聯，並定義其支援的功能。與資料表互動的應用程式，無論是讀取或寫入，都依賴此協定規範來判斷是否與資料表的功能相容。如果應用程式無法處理資料表協定中列出的支援功能，則無法從該資料表讀取或寫入該資料表。

協定規範分為兩個明確的組成部分：「讀取」協定與「寫入」協定。欲了解更多資訊，請參閱「Delta Lake 如何管理功能相容性？」頁面。

使用者可以在 PySpark 環境中以及 Spark SQL 和 Scala 中執行命令 delta.upgradeTableProtocol(minReaderVersion, minWriterVersion)。此命令可讓他們在 Delta 資料表上起始更新。

請務必注意，在執行此升級時，使用者會收到警告，指出升級 Delta 協議版本是不可逆的過程。這表示一旦更新執行，就無法再還原。

協定版本升級可能會影響現有 Delta Lake 桌表閱讀器、寫入器或兩者的相容性。因此，建議您謹慎行事，並在必要時升級通訊協定版本，例如在 Delta Lake 中採用新功能時。

這很重要

想了解更多哪些協定版本與功能在所有 Microsoft Fabric 體驗中相容，請閱讀 Delta Lake 表格格式互通性。

此外，使用者應該使用新的通訊協定版本來驗證所有目前和未來的生產工作負載和程式都與 Delta Lake 資料表相容，以確保順暢轉換，並防止任何潛在的中斷。

反饋

呢頁幫到你嗎？

Last updated on 2025-12-15