Azure Synapse Spark 遷移到 Fabric 概述

請將本文作為將 Azure Synapse Spark 工作負載遷移至 Microsoft Fabric 的起點。 它幫助你決定要採用哪些指引、哪些可以直接遷移,以及哪些地方仍需手動重構或驗證。

Fabric 資料工程支援 lakehousenotebookenvironmentSpark 工作定義,以及 pipeline項目。 大多數 Synapse Spark 的遷移涉及項目遷移、資料存取變更、元資料遷移、程式碼重構及遷移後驗證的某種組合。

移轉之前

在開始之前,請確認 Fabric Data Engineering 是否是您工作量的合適對象。 檢視你目前 Synapse 實作所依賴的 Spark 執行時、安全模型、池模型、環境模型以及資料存取模式。

從以下文章開始:

如果你正在遷移現有的 Synapse 工作區,建議建立或使用現有的 Fabric 工作區作為遷移目標。 本文未涵蓋完整工作空間配置或非 Spark 工作負載遷移。

你可以遷移什麼?

Synapse-到 Fabric 的遷移通常跨越多個工作流程。

遷徙區 典型範圍 主要指導
規劃與評估 盤點 Spark 池、筆記本、Spark 工作定義、湖泊資料庫、連結的服務與障礙物 第一階段:移民策略與規劃
項目、程式碼重構、池、設定與函式庫 筆記本、Spark 工作定義、Spark 池、湖泊資料庫映射、 mssparkutils連結服務、檔案路徑、目錄 API、連接器認證、環境、自訂池、Spark 屬性、函式庫相容性 第二階段:Spark 工作負載遷移
蜂巢元儲存庫與湖泊元資料 資料庫、資料表、分割區、管理資料表與外部資料表 第三階段:Hive 元儲存庫與資料遷移
資料存取與管線 OneLake 捷徑、ADLS Gen2 存取、複製活動、管線遷移 移轉資料和數據管道
安全性、驗證與切換 角色、連接、治理、驗證、切換計劃 第四階段:安全與治理遷移

選擇你的遷移路徑

走符合你目標的路徑。

  • 你需要一個端到端的遷移計畫。 從四階段最佳實務系列開始。 這是大多數生產遷移的最佳切入點。
  • 你想要快速移動支援的火花物品。 先從 Spark 移轉小幫手開始,然後利用重構和驗證文章來填補這些缺口。
  • 你只需要在一個方面得到幫助。 使用針對特定任務設計的條目來管理筆記本、Spark 工作定義、資源池、函式庫、Hive 元資料儲存庫的元資料,或執行資料/管線遷移。

對大多數團隊來說,最快的 Synapse Spark 遷移方式是:

  1. 評測 比較 Fabric 與 Azure Synapse Spark:關鍵差異
  2. 請閱讀 第一階段:移民策略與規劃
  3. 在適用的情況下,運行Spark Synapse 至 Fabric Spark 遷移助手
  4. 利用 第二階段:Spark 工作負載遷移重構筆記本、Spark 工作、池與函式庫。
  5. 利用剩餘的最佳實務文章驗證資料存取、元資料、安全性及切換準備度。

顯示移轉案例的螢幕擷取畫面。

從 Synapse Spark 遷移到 Fabric 通常是複製並調整的過程,而非直接原地移動。 你可以快速遷移許多資產,但仍應預期驗證執行時行為、替換 Synapse 專屬整合,並將安全性、元資料與營運模式與 Fabric 對齊。

最佳實務系列

使用最佳實務系列,建立結構化的端到端遷移路徑:

任務特定遷移條目

如果你需要針對特定遷移任務的指引,請參考以下文章: