使用資料處理站管線

已完成

為了使用資料處理站管線,請務必了解 Azure Data Factory 中的管線是什麼。

Azure Data Factory 中的管線代表活動的邏輯群組,而活動一起執行某項工作。

例如,一個管線中的活動組合可能是內嵌並清除記錄資料,再結合對應資料流來分析已清除的記錄資料。

管線可讓您將原本要個別管理的個別活動,當成集合來管理。 可讓您使用單一管線有效率部署和排程活動,而不是個別管理每個活動。

管線中的活動是指您對資料執行的動作。 一個活動可以接受零或多個輸入資料集,並且會產生一或多個輸出資料集。

例如,動作可能是使用複製活動,將資料從 Azure SQL Database 複製到 Azure Data Lake Storage Gen2。 以這個例子來說,您可以使用資料流程活動或 Azure Databricks 筆記本活動,處理並轉換已複製到 Azure Data Lake Storage Gen2 帳戶的資料,以提供資料給商業智慧報告解決方案,如同在 Azure Synapse Analytics 中。

由於 Azure Data Factory 中的管線可執行許多活動,我們將活動分成三個類別:

  • 資料移動活動:Data Factory 中的「複製活動」將資料從來源資料存放區,複製到接收資料存放區。
  • 資料轉換活動:Azure Data Factory 支援轉換活動,例如資料流程、Azure 函式、Spark 等,可個別地或與另一個活動鏈結起來新增至管線。
  • 控制活動:控制流程活動的例子包括 'get metadata'、'For Each' 和 'Execute Pipeline'。

活動可以彼此相依。 意思是活動相依性定義後續活動如何相依於先前活動。 相依性本身可以根據條件,決定是否繼續執行先前定義的活動,以完成工作。 如果一個活動相依於一或多個先前活動,則可能有不同的相依性條件。

四個相依性條件如下:

  • 成功
  • 已失敗
  • 已跳過
  • 已完成

例如,如果管線有活動 A,後面接著活動 B,而活動 B 以活動 A「成功」為相依性條件,則只有在活動 A 的狀態為「成功」時,活動 B 才會執行。

如果您在管線中有多個活動,且後續活動不相依於先前的活動,則活動可能會平行執行。