練習 - 使用 Azure Data Factory 整頓資料

已完成

Azure Data Factory 內的 Power Query 功能可讓您使用和整頓資料。 這個物件可新增到畫布設計工具中做為 Azure Data Factory 管線中的活動,以執行無程式碼的資料準備。 對於不熟悉傳統資料準備技術 (例如 Spark 或 SQL Server) 和 Python 及 T-SQL 等語言的人員,整頓資料流可讓他們透過反覆的方式準備雲端規模的資料。

Power Query 功能會使用格線類型介面進行基本的資料準備,與 Excel 的美學相似,也稱為線上混搭編輯器。 該編輯器也可讓更進階的使用者透過公式來執行更複雜的資料準備。 您必須先建立資料來源的連結服務,才能存取資料

Online Mashup Editor

這些公式可搭配 Power Query Online 使用,而且讓 Data Factory 使用者能夠使用 Power Query M 函式。 Power Query 會將線上混搭編輯器所產生的 M 語言轉譯成適用於雲端規模執行的 Spark 程式碼。

此功能可讓資料工程師和資料分析師以互動方式探索及準備資料集。 此外,其能夠以互動方式搭配使用 M 語言,並在更大的管線內容中檢視之前先預覽結果。

若要在 Azure Data Factory 中新增 Power Query 活動,請按一下加號圖示,然後在 [處理站資源] 窗格中選取 [Power Query]。

Create a Power Query activity

為您的整頓資料流新增來源資料集,並選取接收器資料集。 支援下列資料來源。

連接器 資料格式 驗證類型
Azure Blob 儲存體 CSV、Parquet 帳戶金鑰
Azure Data Lake Storage Gen1 CSV Service Principal
Azure Data Lake Storage Gen2 CSV、Parquet 帳戶金鑰、服務主體
Azure SQL Database SQL 驗證
Azure Synapse Analytics SQL 驗證

選取來源之後,請按一下 [建立]。

Adding source datasets to wrangling data flow

這樣會開啟線上混搭編輯器。

Navigating the wrangling data flow

它由下列元件組成:

  1. [資料集] 清單。

    這會提供已定義為資料整頓來源的資料集。

  2. [整頓函數] 工具列。

    此工具列包含各種資料整頓函數,使用者可以存取這些函數來操作資料,包括:

    • 管理資料行。
    • 轉換資料表。
    • 減少資料列。
    • 新增資料行。
    • 合併資料表。

    每個項目都有內容相關,且包含其專屬的子函數。

  3. 資料行標題。

    以滑鼠右鍵按一下資料行時,除了重新命名資料行的功能以外,還會顯示內容相關的項目來管理資料行。

  4. 設定。

    這可讓您新增或編輯資料來源和資料接收器,以及修改整頓資料工作的設定。

  5. [步驟] 視窗。

    此視窗會顯示已套用至整頓輸出的步驟。 在圖中的範例,名為「Source」的步驟已套用名為「UserQuery」的整頓輸出。

  6. Power Query 輸出清單。

    列出已定義的資料整頓輸出。

  7. [發佈] 按鈕。

    可讓您發佈已建立的工作。

會在畫布設計工具中新增 Power Query 工作,就像「複製活動」工作或「對應資料流」工作一樣,也可以透過相同的方式來管理和監視。

completing the wrangling data flow