分享方式:


使用 Azure Data Factory 和 Synapse Analytics 管線的反覆式開發法和偵錯

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

Azure Data Factory和 Synapse Analytics 支援反覆式開發法和偵錯管線。 這些功能可讓您先測試變更,然後再建立提取要求或將其發佈至服務。

如需此功能的簡介與示範,請觀看下列 8 分鐘長的影片:

對管線進行偵錯

當您使用管線畫布製作時,可以使用 [偵錯] 功能來測試活動。 當您執行測試回合時,您不必在選取 [偵錯] 前,先將變更發佈至服務。 如果您想要在更新工作流程之前,先確保變更如預期般運作,此功能會很有幫助。

Debug capability on the pipeline canvas

當管線執行中時,您可以在管線畫布的 [輸出] 索引標籤中查看每個活動的結果。

在管線畫布的 [輸出] 視窗中檢視測試回合的結果。

Output window of the pipeline canvas

測試回合成功之後,將更多活動新增至您的管線並繼續以反覆方式進行偵錯。 您也可以 [取消] 正在進行的測試回合。

重要

選取 [偵錯] 實際上會執行管線。 因此,如果管線包含複製活動,則測試回合將資料從來源複製到目的地。 如此一來,我們建議您在偵錯時,於複製活動或其他活動中使用測試資料夾。 完成管線偵錯之後,請切換到您要在正常作業中使用的實際資料夾。

設定中斷點

此服務可讓您偵錯管線,直到到達管線畫布上的特定活動為止。 將中斷點放在您要測試時的活動,然後選取 [偵錯]。 服務可確保測試回合只會進行到管線畫布上的中斷點活動。 如果您不想測試整個管線,而只想測試管線內的部分活動,這項 [偵錯直到] 功能很實用。

Breakpoints on the pipeline canvas

若要設定中斷點,請選取管線畫布上的元素。 [偵錯直到] 選項會在元素的右上角顯示為空心的紅色圓圈。

Before setting a breakpoint on the selected element

在您選取 [偵錯直到] 選項之後,該選項會變更為實心的紅色圓圈,以指出中斷點已啟用。

After setting a breakpoint on the selected element

監視偵錯回合

當您執行管線偵錯執行時,結果將會出現在管線畫布的 [輸出] 視窗中。 輸出索引標籤只會包含目前瀏覽器工作階段期間所發生的最近執行。

Output window of the pipeline canvas

若要檢視偵錯執行歷程記錄檢視,或查看所有作用中偵錯執行的清單,您可以進入 [監視] 體驗。

注意

服務只會保存偵錯執行歷程記錄 15 天。

偵錯對應資料流

對應資料流可讓您建立可大規模執行的無程式碼資料轉換邏輯。 建立您的邏輯時,您可以開啟偵錯工作階段,以互動方式使用即時 Spark 叢集來處理您的資料。 若要深入瞭解,請閱讀對應資料流偵錯模式

您可以在 [監視器] 體驗中,監視作用中資料流程偵錯工作階段。

View data flow debug sessions

資料流程設計工具中的資料預覽和資料流程的管線偵錯,旨在與小型資料樣本搭配使用。 不過,如果您需要針對大量資料在管線或資料流程中測試邏輯,請透過使用更多核心和最小一般用途計算,來增加偵錯工作階段中使用的 Azure Integration Runtime 大小。

偵錯具有資料流程活動的管線

使用資料流程執行偵錯管線時,您有兩個選項可供計算使用。 您可以使用現有的偵錯叢集,或啟動資料流程的新 Just-In-Time 叢集。

使用現有的偵錯工作階段可大幅減少資料流程的啟動時間,因為叢集已在執行,但不建議用於複雜或平行工作負載,因為可能會在一次執行多個作業時失敗。

使用活動執行階段時,系統將會使用每個資料流程活動整合執行階段中指定的設定來建立新的叢集。 這可讓每個作業隔離開來,且應該用於複雜的工作負載或效能測試。 您也可以控制 Azure IR 中的 TTL,讓用於偵錯的叢集資源仍可供該時段使用,以滿足額外的作業要求。

注意

如果您有一個管線,而包含以平行方式執行的資料流程,或需要透過大型資料集進行測試的資料流程,請選擇 [使用活動執行階段],讓服務可以使用您在資料流程活動中選取的 Integration Runtime。 這可讓資料流程在多個叢集上執行,且能容納平行資料流程執行。

Running a pipeline with a dataflow

測試變更之後,請使用持續整合與部署將其升階至較高的環境。