Dataflows Gen2 中的快速拷貝
本文會說明 Microsoft Fabric Data Factory 中 Dataflows Gen2 內的快速拷貝功能。 資料流程流有助於擷取和轉換資料。 在 SQL DW 計算引入資料流程擴增後,您便可大規模轉換資料。 然而,必須先擷取您的資料。 透過引入快速拷貝,您可以使用資料流程的簡單體驗擷取數 TB 的資料,但會使用管線複製活動的可調整後端。
在啟用此功能後,資料流程會在資料大小超過特定閾值時自動切換後端,且無須在撰寫資料流程期間變更任何項目。 在重新整理資料流程之後,您可以查看顯示於該處的 [引擎] 類型,以檢查重新整理歷程記錄,了解是否已在執行期間使用快速拷貝。
在啟用 [需要快速拷貝] 選項後,若未使用快速拷貝,系統會取消資料流程重新整理。 這有助您避免等待重新整理逾時,以繼續操作。 此行為在偵錯工作階段中也有助於使用您的資料來測試資料流程行為,同時縮短等待時間。 您可以在查詢步驟窗格中使用快速拷貝標記,輕鬆檢查是否可使用快速拷貝來執行您的查詢。
必要條件
- 您必須擁有網狀架構容量。
- 針對檔案資料,檔案的格式至少為 100 MB 的 .csv 或 parquet 格式,並儲存在 Azure Data Lake Storage (ADLS) Gen2 或 Blob 儲存體帳戶中。
- 針對包含 Azure SQL DB 和 PostgreSQL 的資料庫,資料來源中會有 500 萬或更多個資料列。
注意
您可以選取 [需要快速拷貝] 設定,略過閾值以強制快速拷貝。
連接器支援
以下 Dataflow Gen2 連接器目前可支援快速拷貝:
- ADLS Gen2
- Blob 儲存體
- Azure SQL DB
- Lakehouse
- PostgreSQL
- 內部部署 SQL Server
- 倉儲
- Oracle
- Snowflake
在連線至檔案來源時,複製活動僅會支援以下數種轉換:
- 合併檔案
- 選取資料行
- 變更資料類型
- 重新命名資料行
- 移除資料行
您仍可透過將擷取和轉換步驟分割為不同的查詢來套用其他轉換。 第一個查詢會真的擷取資料,而第二個查詢會參考其結果,以便使用 DW 計算。 針對 SQL 來源,可支援屬於原生查詢的任何轉換。
當您直接將查詢載入輸出目的地時,目前僅可支援 Lakehouse 目的地。 若您要使用另一個輸出目的地,可以先檢閱及測試查詢,稍後再參考。
如何使用快速拷貝
瀏覽至適當的網狀架構端點。
瀏覽至進階工作區,並建立資料流程 Gen2。
在新資訊流程的 [首頁] 索引標籤上,選取 [選項]:
然後,請在 [選項] 對話方塊上選擇的 [縮放] 索引標籤,然後選取 [允許使用快速拷貝連接器] 核取方塊以開啟快速拷貝。 然後請關閉 [選項] 對話方塊。
選取 [取得資料],然後選擇 ADLS Gen2 來源,並填寫容器的詳細資料。
使用 [合併檔案] 功能。
若要確保快速靠背,請僅套用本文連接器支援章節中所列的變換情況。 若您需要套用更多變換,請先儲存資料,稍後再參考查詢內容。 在參考的查詢上執行其他變換。
(選用) 您可透過以滑鼠右鍵按一下查詢內容來選取並啟用該選項,以為查詢內容設定 [需要快速拷貝] 選項。
(選用)) 目前,您僅能將 Lakehouse 設定為輸出目的地。 針對任何其他目的地,請檢閱及測試查詢,並稍後在另一個可輸出至任何來源的查詢中參考前一個查詢內容。
檢查快速拷貝標記,以查看是否可以使用快速拷貝來執行您的查詢。 若可以,[引擎] 類型會顯示 CopyActivity。
發佈資料流程。
在重新整理完成後進行檢查,以確認已使用快速拷貝。
已知的限制
- 若要支援快速拷貝,需有內部部署的資料閘道 3000.214.2 或更新版本。
- 不支援 VNet 閘道。
- 不支援將資料寫入 Lakehouse 中的現有資料表。
- 不支援固定結構描述。