適用於:
Azure Data Factory
Azure Synapse Analytics
提示
Data Factory in Microsoft Fabric 是下一代的 Azure Data Factory,擁有更簡單的架構、內建 AI 及新功能。 如果你是資料整合新手,建議先從 Fabric Data Factory 開始。 現有的 ADF 工作負載可升級至 Fabric,以存取資料科學、即時分析與報告等新能力。
資料整頓牽涉到從原始來源轉換和重新格式化資料,使其更適合且適用於各種下游應用程式。
為提供精確分析每天持續成長的複雜資料,組織必須有探索重要商務資料的資料準備和整頓能力。 需要資料準備,才可讓組織在各種商務程序中使用資料,並縮短價值創造時間。
Data Factory 透過 Power Query 在雲端規模上,迭代地提供無程式碼的資料準備。 Data Factory 整合 Power Query Online,並讓 Power Query M 函式作為管線活動可用。
Data Factory 將 Power Query Online Mashup Editor 產生的 M 轉換成 spark 程式碼,用於雲端規模執行,方法是將 M 轉換成 Azure Data Factory 的資料流。 使用 Power Query 和資料流程整理資料,對資料工程師或「公民資料整合者」特別有用。
使用案例
快速互動式資料探索和準備
多位資料工程師和公民數據整合者可以在雲端規模下互動式地探索和準備資料集。 隨著 Data Lake 中的資料數量、多樣性和速度增加,使用者需要有效方法來探索和準備資料集。 例如,您可能需要建立「具有自 2017 年以來新客戶的所有客戶人口統計資料」的資料集。 您未對應至已知目標。 您正在探索、整理與準備資料集,以符合某項需求,再將其發佈至湖中。 整理通常用於較不正式的分析案例。 預先準備的資料集可用於進行下游的轉換和機器學習作業。
無程式碼的敏捷式資料準備
公民資料整合者花費 60% 以上的時間來尋找和準備資料。 他們想要以無程式碼的方式這樣做,以提升作業生產力。 允許公民資料整合商使用像 Power Query Online 這類已知工具,以可擴展的方式豐富、塑造並發布資料,大幅提升了他們的生產力。 Azure Data Factory 中的整理讓熟悉的 Power Query Online 混搭編輯器成為公民資料整合商快速修正錯誤、標準化資料並產生高品質資料以支持商業決策的工具。
資料驗證和探索
以無程式碼的方式從視覺上掃描資料,以移除任何極端值、異常並符合形態,以利於快速分析。
支援的來源
| 連接器 | 資料格式 | 驗證類型 |
|---|---|---|
| Azure Blob Storage | CSV、Parquet、Excel | 帳戶金鑰、服務主體、MSI |
| Azure Data Lake Storage Gen1 | CSV、Parquet、Excel | 服務主體、MSI |
| Azure Data Lake Storage Gen2 | CSV、Parquet、Excel | 帳戶金鑰、服務主體、MSI |
| Azure SQL Database | - | SQL 驗證、MSI、Service Principal |
| Azure Synapse Analytics | - | SQL 驗證、MSI、Service Principal |
混搭編輯器
當你建立Power Query活動時,所有來源資料集都會變成資料集查詢,並被放在 ADFResource資料夾中。 UserQuery 預設指向第一個資料集查詢。 所有轉換都應該在 UserQuery 上完成,因為不支援也不保存對資料集查詢所做的變更。 目前不支援重新命名、新增和刪除查詢。
目前並非所有 Power Query M 函式都支援資料整理,儘管在撰寫過程中可用。 在建立 Power Query 活動時,若某函式不支援,您將跳出以下錯誤訊息:
The Power Query Spark Runtime does not support the function
欲了解更多支援的轉換資訊,請參見 Power Query 資料整理函數。