練習 - 使用 Azure Data Factory 整頓資料
Azure Data Factory 內的 Power Query 功能可讓您使用和整頓資料。 這個物件可新增到畫布設計工具中做為 Azure Data Factory 管線中的活動,以執行無程式碼的資料準備。 對於不熟悉傳統資料準備技術 (例如 Spark 或 SQL Server) 和 Python 及 T-SQL 等語言的人員,整頓資料流可讓他們透過反覆的方式準備雲端規模的資料。
Power Query 功能會使用格線類型介面進行基本的資料準備,與 Excel 的美學相似,也稱為線上混搭編輯器。 該編輯器也可讓更進階的使用者透過公式來執行更複雜的資料準備。 您必須先建立資料來源的連結服務,才能存取資料
這些公式可搭配 Power Query Online 使用,而且讓 Data Factory 使用者能夠使用 Power Query M 函式。 Power Query 會將線上混搭編輯器所產生的 M 語言轉譯成適用於雲端規模執行的 Spark 程式碼。
此功能可讓資料工程師和資料分析師以互動方式探索及準備資料集。 此外,其能夠以互動方式搭配使用 M 語言,並在更大的管線內容中檢視之前先預覽結果。
若要在 Azure Data Factory 中新增 Power Query 活動,請按一下加號圖示,然後在 [處理站資源] 窗格中選取 [Power Query]。
為您的整頓資料流新增來源資料集,並選取接收器資料集。 支援下列資料來源。
連接器 | 資料格式 | 驗證類型 |
---|---|---|
Azure Blob 儲存體 | CSV、Parquet | 帳戶金鑰 |
Azure Data Lake Storage Gen1 | CSV | Service Principal |
Azure Data Lake Storage Gen2 | CSV、Parquet | 帳戶金鑰、服務主體 |
Azure SQL Database | SQL 驗證 | |
Azure Synapse Analytics | SQL 驗證 |
選取來源之後,請按一下 [建立]。
這樣會開啟線上混搭編輯器。
它由下列元件組成:
[資料集] 清單。
這會提供已定義為資料整頓來源的資料集。
[整頓函數] 工具列。
此工具列包含各種資料整頓函數,使用者可以存取這些函數來操作資料,包括:
- 管理資料行。
- 轉換資料表。
- 減少資料列。
- 新增資料行。
- 合併資料表。
每個項目都有內容相關,且包含其專屬的子函數。
資料行標題。
以滑鼠右鍵按一下資料行時,除了重新命名資料行的功能以外,還會顯示內容相關的項目來管理資料行。
設定。
這可讓您新增或編輯資料來源和資料接收器,以及修改整頓資料工作的設定。
[步驟] 視窗。
此視窗會顯示已套用至整頓輸出的步驟。 在圖中的範例,名為「Source」的步驟已套用名為「UserQuery」的整頓輸出。
Power Query 輸出清單。
列出已定義的資料整頓輸出。
[發佈] 按鈕。
可讓您發佈已建立的工作。
會在畫布設計工具中新增 Power Query 工作,就像「複製活動」工作或「對應資料流」工作一樣,也可以透過相同的方式來管理和監視。