將數據和管線從 Azure Synapse Analytics 遷移至 Microsoft Fabric
資料和管線移轉的第一個步驟是識別您想要在 OneLake 中提供的資料,以及您想要移動的管線。
您有兩個選項可用來進行資料移轉:
- 選項 1:Azure Data Lake Storage (ADLS) Gen2 做為預設儲存體。 如果您目前使用ADLS Gen2並想要避免資料複製,請考慮使用 OneLake 捷徑。
- 選項 2:OneLake 作為預設儲存體。 如果您想要從 ADLS Gen2 移至 OneLake 作為儲存層,請考慮從筆記本和 Spark 作業定義讀取/寫入 OneLake。
如果您要與 ADLS Gen2 互動,並想要避免資料重複,您可以在 OneLake 中建立 ADLS Gen2 來源路徑的捷徑。 您可以使用下列考慮,在 Fabric 中 Lakehouse 的檔案和資料表區段內建立捷徑:
- 檔案區段是湖的非受控區域。 如果您的資料採用 CSV、JSON 或 Parquet 格式,建議您建立此區域的捷徑。
- 資料表區段是湖的受控區域。 所有資料表,無論是 Spark 管理的資料表還是 Unmanaged 資料表,都會在這裡註冊。 如果您的資料是 Delta 格式,您可以在此區域中建立捷徑,而自動探索程式會自動在 Lakehouse 的中繼存放區中註冊這些 Delta 資料表。
深入瞭解如何 建立 ADLS Gen2 捷徑。
若要使用 OneLake 作為儲存層,並從 ADLS Gen2 移動資料,您應該一開始將 Azure Synapse Spark 相關項目指向 OneLake,然後將現有的資料傳送至 OneLake。 如需前者,請參閱 整合 OneLake 與 Azure Synapse Spark。
若要將現有的資料移至 OneLake,您有幾個選項:
- mssparkutils fastcp:mssparkutils 連結庫提供 fastcp API,可讓您將資料從 ADLS Gen2 複製到 OneLake。
- AzCopy:您可以使用 AzCopy 命令行公用程式將資料從 ADLS Gen2 複製到 OneLake。
- Azure Data Factory、Azure Synapse Analytics 和 Fabric 中的 Data Factory:使用 複製活動 將數據複製到 Lakehouse。
- 使用捷徑:您可以使用捷徑在 OneLake 中啟用 ADLS Gen2 歷程記錄資料。 不需要資料複製。
- Azure 儲存體 總管:您可以使用 Azure 儲存體 Explorer,將檔案從 ADLS Gen2 位置移至 OneLake。 了解如何整合 OneLake 與 Azure 儲存體總管。
如果您的 Azure Synapse 資料管線包含筆記本和/或 Spark 作業定義活動,您必須將這些管線從 Azure Synapse 移至 Fabric 中的 Data Factory 資料管線,並參考目標筆記本。 Notebook 活動 可在 Data Factory 資料管線中使用。 在這裡,請參閱 Fabric 中所有支持的資料管線活動。
- 如需Spark相關資料管線活動考慮,請參閱 Azure Synapse Spark 與 Fabric 之間的差異。
- 如需筆記本移轉,請參閱 將 Notebook 從 Azure Synapse 遷移至 Fabric。
- 如需資料管線移轉,請參閱移轉至 Fabric 中的 Data Factory。