Microsoft Fabric Data Factory 中的管線可協助您協調和自動化資料工作流程。 管線是一起執行任務的活動的邏輯分組。 例如,管線可能包含一組活動,這些活動會擷取和清除記錄資料,然後啟動資料流程來分析記錄資料。
管線可讓您將活動作為一組進行管理,而不是個別管理每個活動。 您部署和排程管線,而不是獨立安排活動。
何時使用管線
管道透過自動化重複性任務並確保一致的資料處理來解決常見的資料挑戰。
假設您是一家零售公司,需要處理來自多個商店的每日銷售數據。 每天,您需要:
- 從銷售點系統、線上訂單和庫存資料庫收集資料
- 驗證和清理 資料以確保準確性
- 透過計算每日總計、套用業務規則和豐富客戶資訊來轉換資料
- 將處理後的資料載入您的資料倉儲以進行報告
- 當資料準備就緒時通知您的商業智慧團隊
管道可自動執行整個工作流程。 它按計劃運行,優雅地處理錯誤,並提供對每個步驟的可見性。 您可以獲得一致且及時的資料處理,無需人工幹預。
關鍵管線元件
管道由幾個關鍵元件組成,這些元件協同工作以建立強大的資料工作流程。 主要元件包括執行工作並將邏輯新增至管線的 活動 、決定管線執行時間的 排程或觸發程序 ,以及使管線具有彈性且可重複使用的 參數 。
Activities
活動是您的流程的構成要素。 每個活動執行特定任務,活動主要分為三種類型:
您可以將活動鏈結在一起,以建立複雜的工作流程。 當一個活動完成時,它可以根據成功、失敗或完成狀態觸發下一個活動。
如需可用活動的完整清單和詳細資訊,請參閱 活動概觀。
流水線執行和排程管理
當管線執行時會觸發管線運行。 在執行期間,管線中的所有活動都會處理並完成。 每個管線執行都會取得自己的唯一執行識別碼,可用來追蹤和監視。
您可以透過三種方式啟動管線執行:
隨選執行:在管線編輯器中選取 [執行] 以觸發立即執行。 您必須在管線開始之前儲存任何變更。
排程執行:根據時間和頻率設定自動執行。 建立排程時,您可以指定開始和結束日期、頻率和時區。
以事件驅動的運行:使用事件觸發器在發生特定事件時啟動管道,例如,新的檔案到達資料湖或資料庫變更。
如需詳細資訊,請參閱 執行、排程或觸發管線。
參數和變數
參數可讓您的管線具有彈性。 您可以在執行管線時傳遞不同的值,讓相同的管線處理不同的資料集或使用不同的組態。
變數會在管線執行期間儲存暫存值。 您可以使用它們在活動之間傳遞資料,或根據執行階段條件做出決策。
如需詳細資訊,請參閱如何在 管線中使用參數、運算式和函式。
管道監控和管理
Fabric 為您的管線提供全面的監視:
- 實時監控:在管道運行過程中實時查看管道的進度,每個活動狀態都有視覺指示器。
- 運行歷史: 審查過去的執行以識別模式並解決問題
- 效能指標:分析執行時間和資源使用情況以優化您的管道
- 稽核追蹤:追蹤誰在何時執行哪些管線,並提供開始時間、結束時間、活動持續時間、錯誤訊息和資料譜系的詳細記錄
如需詳細資訊,請參閱 監視管線執行過程。
最佳做法
設計管線時,請考慮下列建議:
- 從簡單開始:從基本資料移動開始,逐漸增加複雜性
- 使用參數: 通過參數化連接和文件路徑使您的管道可重複使用
- 處理錯誤:預先規劃失敗情況,並使用重試策略和替代處理路徑來應對問題
- 監控性能: 定期審查執行時間並優化緩慢運行的活動
- 徹底測試:在處理生產工作負載之前,使用範例資料驗證管線