快速入門:使用數據流和數據管線移動和轉換數據
在本教學課程中,您會探索數據流和數據管線體驗如何建立強大且完整的 Data Factory 解決方案。
必要條件
若要開始使用,您必須具備下列必要條件:
- 具有作用中訂用帳戶的租用戶帳戶。 建立免費帳戶。
- 請確定您已啟用 Microsoft Fabric 的工作區: 建立不是預設 [我的工作區] 的工作區 。
- 具有數據表數據的 Azure SQL 資料庫。
- Blob 儲存體 帳戶。
與管線比較的數據流
數據流 Gen2 可讓您利用低程式代碼介面和 300 個以上的資料和 AI 型轉換,輕鬆清除、準備和轉換數據,並比其他任何工具更有彈性。 數據管線可啟用豐富的現用數據協調流程功能,以撰寫符合您企業需求的彈性數據工作流程。 在管線中,您可以建立執行工作的活動的邏輯群組,其中可能包括呼叫數據流來清除和準備您的數據。 雖然這兩者之間有一些功能重疊,但要針對特定案例使用的選擇取決於您是否需要管線的完整豐富性,或是可以使用更簡單但更有限的數據流功能。 如需詳細資訊,請參閱 網狀架構決策指南
使用數據流轉換數據
請遵循下列步驟來設定數據流。
步驟 1:建立數據流
步驟 2:取得數據
在下一個顯示的 [連線 至數據源] 對話框中,輸入要連線到 Azure SQL 資料庫的詳細數據,然後選取 [下一步]。 在此範例中,您會使用 在必要條件中設定 Azure SQL 資料庫時所設定的 AdventureWorksLT 範例資料庫。
選取您想要轉換的數據,然後選取 [ 建立]。 在本快速入門中,從提供給 Azure SQL DB 的 AdventureWorksLT 範例數據中選取 [SalesLT.Customer],然後選取 [選取相關數據表] 按鈕,以自動包含另外兩個相關數據表。
步驟 3:轉換您的數據
如果未選取,請沿著頁面底部的狀態欄選取 [圖表檢視] 按鈕,或選取 Power Query 編輯器頂端 [檢視] 功能表下的 [圖表檢視]。 其中一個選項都可以切換圖表檢視。
以滑鼠右鍵按下 SalesLT 客戶 查詢,或選取查詢右側的垂直省略號,然後選取 [ 合併查詢]。
選取 SalesLTOrderHeader 資料表做為合併的右數據表、 每個數據表的 CustomerID 數據行做為聯結數據行,並將 左方 選取為聯結種類,以設定合併。 然後選取 [ 確定 ] 以新增合併查詢。
從您剛才建立的新合併查詢中,選取 [新增數據目的地] 按鈕,其看起來就像資料庫符號上方有箭號。 然後選取 [Azure SQL 資料庫 ] 作為目的地類型。
提供要發佈合併查詢之 Azure SQL 資料庫連線的詳細數據。 在此範例中,您也可以使用 我們作為目的地數據源的 AdventureWorksLT 資料庫。
選擇要儲存數據的資料庫,並提供數據表名稱,然後選取 [ 下一步]。
您可以在 [選擇目的地設定] 對話框中保留預設設定,只要選取 [儲存設定],即可在這裡進行任何變更。
選取 [數據流編輯器] 頁面上的 [重新發佈 ],以發佈數據流。
使用數據管線移動數據
現在您已建立數據流 Gen2,您可以在管線中操作。 在此範例中,您會將數據流所產生的數據複製到 Azure Blob 儲存體 帳戶中的文字格式。
步驟 1:建立新的數據管線
從您的工作區中,選取 [ 新增],然後選取 [ 數據管線]。
為您的管線命名,然後選取 [ 建立]。
步驟 2:設定數據流
選取 [活動] 索引標籤中的 [資料流],將新的數據流活動新增至您的數據管線。
選取管線畫布上的數據流,然後選取 [設定] 索引標籤。選擇您先前從下拉式清單中建立的數據流。
選取 [ 儲存],然後 選取 [執行 ] 以執行數據流,以一開始填入您在上一個步驟中設計的合併查詢數據表。
步驟 3:使用複製助理新增複製活動
選取 畫佈上的 [複製數據 ] 以開啟 複製小幫 手工具以開始使用。 或者,從功能區 [活動] 索引標籤底下的 [複製數據] 下拉式清單中選取 [使用複製小幫手]。
選取資料來源類型,以選擇您的資料來源。 在本教學課程中,您會在建立數據流以產生新的合併查詢時,使用先前使用的 Azure SQL 資料庫。 向下卷動至範例數據供應專案下方,然後選取 [Azure] 索引卷標,然後選取 [Azure SQL 資料庫]。 然後選取 [ 下一步 ] 繼續。
選取 [建立新連線],以建立數據源的連線。 在面板上填入必要的連線資訊,然後輸入資料庫的 AdventureWorksLT,其中我們在數據流中產生合併查詢。 然後選取下一步。
選取您稍早在數據流步驟中產生的數據表,然後選取 [ 下一步]。
針對您的目的地,選擇 [Azure Blob 儲存體],然後選取 [下一步]。
選取 [建立新聯機],以建立目的地的連線。 提供連線的詳細數據,然後選取 [ 下一步]。
選取您的 資料夾路徑 並提供 檔名,然後選取 [ 下一步]。
再次選取 [下一步 ] 以接受預設檔案格式、數據行分隔符、數據列分隔符和壓縮類型,選擇性地包含標頭。
完成您的設定。 然後,檢閱並選取 [ 儲存 + 執行 ] 以完成程式。
步驟 5:設計您的數據管線並儲存以執行和載入數據
若要在數據流活動之後執行複製活動,請從數據流活動上的 [成功] 拖曳至 [複製] 活動。 複製活動只會在數據流活動成功之後執行。
選取 [ 儲存 ] 以儲存您的資料管線。 然後選取 [ 執行 ] 以執行您的資料管線並載入您的數據。
排程管線執行
完成開發及測試管線之後,您可以排程它自動執行。
在管線編輯器視窗的 [ 首頁 ] 索引標籤上,選取 [ 排程]。
視需要設定排程。 這裡的範例會排程管線每天在晚上 8:00 執行,直到年底為止。
相關內容
此範例示範如何建立及設定 Dataflow Gen2 來建立合併查詢,並將其儲存在 Azure SQL 資料庫中,然後將資料庫的數據複製到 Azure Blob 儲存體 中的文字檔。 您已了解如何︰
- 建立資料流程。
- 使用數據流轉換數據。
- 使用數據流建立數據管線。
- 排序管線中的步驟執行。
- 使用複製小幫手複製數據。
- 執行並排程您的數據管線。
接下來,請繼續進行以深入瞭解如何監視管線執行。