將資料和管線從 Azure Synapse 遷移至 Microsoft Fabric
資料和管線移轉的第一個步驟是識別您想要在 OneLake 中提供的資料,以及您想要移動的管線。
您有兩個選項可用來進行資料移轉:
- 選項 1:Azure Data Lake Storage (ADLS) Gen2 做為預設儲存體。 如果您目前使用ADLS Gen2並想要避免資料複製,請考慮使用 OneLake 捷徑。
- 選項 2:OneLake 作為預設儲存體。 如果您想要從 ADLS Gen2 移至 OneLake 作為儲存層,請考慮從筆記本和 Spark 作業定義讀取/寫入 OneLake。
資料移轉
選項 1:ADLS Gen2 作為儲存體(捷徑)
如果您要與 ADLS Gen2 互動,並想要避免資料重複,您可以在 OneLake 中建立 ADLS Gen2 來源路徑的捷徑。 您可以使用下列考慮,在 Fabric 中 Lakehouse 的檔案和資料表區段內建立捷徑:
- 檔案區段是湖的非受控區域。 如果您的資料採用 CSV、JSON 或 Parquet 格式,建議您建立此區域的捷徑。
- 資料表區段是湖的受控區域。 所有資料表,無論是 Spark 管理的資料表還是 Unmanaged 資料表,都會在這裡註冊。 如果您的資料是 Delta 格式,您可以在此區域中建立捷徑,而自動探索程式會自動在 Lakehouse 的中繼存放區中註冊這些 Delta 資料表。
深入瞭解如何 建立 ADLS Gen2 捷徑。
選項 2:OneLake 作為儲存體
若要使用 OneLake 作為儲存層,並從 ADLS Gen2 移動資料,您應該一開始將 Azure Synapse Spark 相關項目指向 OneLake,然後將現有的資料傳送至 OneLake。 如需前者,請參閱 整合 OneLake 與 Azure Synapse Spark。
若要將現有的資料移至 OneLake,您有幾個選項:
- mssparkutils fastcp:mssparkutils 連結庫提供 fastcp API,可讓您將資料從 ADLS Gen2 複製到 OneLake。
- AzCopy:您可以使用 AzCopy 命令行公用程式將資料從 ADLS Gen2 複製到 OneLake。
- Azure Data Factory、Azure Synapse 和 Fabric 中的 Data Factory:使用 複製活動 將資料複製到 Lakehouse。
- 使用捷徑:您可以使用捷徑在 OneLake 中啟用 ADLS Gen2 歷程記錄資料。 不需要資料複製。
- Azure 儲存體 總管:您可以使用 Azure 儲存體 Explorer,將檔案從 ADLS Gen2 位置移至 OneLake。 了解如何整合 OneLake 與 Azure 儲存體總管。
管線移轉 (Spark 相關活動)
如果您的 Azure Synapse 資料管線包含筆記本和/或 Spark 作業定義活動,您必須將這些管線從 Azure Synapse 移至 Fabric 中的 Data Factory 資料管線,並參考目標筆記本。 Notebook 活動 可在 Data Factory 資料管線中使用。 在這裡,請參閱 Fabric 中所有支持的資料管線活動。
- 如需Spark相關資料管線活動考慮,請參閱 Azure Synapse Spark 與 Fabric 之間的差異。
- 如需筆記本移轉,請參閱 將 Notebook 從 Azure Synapse 遷移至 Fabric。
- 如需資料管線移轉,請參閱移轉至 Fabric 中的 Data Factory。