Microsoft Fabric 中 Data Factory 的新功能和計劃
重要
發行方案描述可能或可能尚未發行的功能。 傳遞時程表和投影功能可能會變更或可能不會出貨。 如需詳細資訊,請參閱Microsoft原則。
Microsoft Fabric 中的 Data Factory 會將公民數據整合和 Pro 數據整合功能結合成單一的新式數據整合體驗。 它提供超過 100 個關係型和非關係資料庫、Lakehouses、數據倉儲、REST API、OData 等泛型介面的連線能力。
數據流:數據流 Gen2 可讓您執行大規模的數據轉換,並支援寫入 Azure SQL 資料庫、Lakehouse、數據倉儲等各種輸出目的地。 數據流編輯器提供超過 300 個轉換,包括以 AI 為基礎的選項,可讓您輕鬆地以比任何其他工具更好的彈性來轉換數據。 無論您是從非結構化數據源擷取數據,例如網頁或重塑Power Query 編輯器中的現有數據表,您都可以輕鬆地套用Power Query的數據擷取範例,其使用人工智慧 (AI) 並簡化程式。
數據管線: 數據管線提供建立多功能數據協調流程工作流程的功能,可將數據擷取、載入慣用數據存放區、筆記本執行、SQL 腳本執行等工作結合在一起。 您可以快速建置功能強大的元數據驅動數據管線,以自動化重複的工作。 例如,從資料庫中的不同數據表載入和擷取數據、逐一查看 Azure Blob 儲存體 中的多個容器等等。 此外,使用數據管線,您可以使用 Microsoft Graph 資料連線 ion (MGDC) 連接器,從 Microsoft 365 存取數據。
若要深入了解,請參閱文件。
投資領域
在接下來的幾個月里,Microsoft Fabric 中的 Data Factory 將會擴充其連線選項,並繼續新增至豐富的轉換和數據管線活動連結庫。 此外,它可讓您從操作資料庫執行即時高效能的數據複寫,並將此數據帶入湖中進行分析。
功能 | 預估發行時間表 |
---|---|
Data Factory 的 Copilot (數據流) | Q3 2024 |
數據流 Gen2 中的累加式重新整理支援 | Q3 2024 |
Azure Databricks 作業的數據管線支援 | Q3 2024 |
DBT CLI 的數據管線支援 | Q3 2024 |
數據流 Gen2 中的快速複製支援 | Q3 2024 |
複製作業 | Q3 2024 |
資料來源身分識別管理 (受控識別) | Q3 2024 |
資料來源身分識別管理 (Azure 金鑰保存庫) | Q3 2024 |
Data Factory 的 Copilot (資料管線) | Q3 2024 |
已改善重新整理失敗的電子郵件通知 | Q3 2024 |
支援叫用跨工作區數據管線 | Q3 2024 |
讓客戶參數化其連線 | Q4 2024 |
複製活動的新連接器 | 出貨 (2024 年第 2 季) |
數據工作流程:建置由Apache Airflow提供電源的數據管線 | 出貨 (2024 年第 2 季) |
SparkJobDefinition 的數據管線支援 | 出貨 (2024 年第 2 季) |
Azure HDInsight 的數據管線支援 | 出貨 (2024 年第 2 季) |
事件驅動觸發程式的數據管線支援 | 出貨 (2024 年第 2 季) |
數據流 Gen 2 輸出目的地的暫存預設值 | 出貨 (2024 年第 2 季) |
資料來源身分識別管理 (SPN) | 出貨 (2024 年第 2 季) |
取得資料體驗改善(流覽 Azure 資源) | 出貨 (2024 年第 1 季) |
內部部署數據閘道 (OPDG) 支援已新增至資料管線 | 出貨 (2024 年第 1 季) |
數據流 Gen2 中的快速複製支援 | 出貨 (2024 年第 1 季) |
適用於數據管線的 Data Factory Git 整合 | 出貨 (2024 年第 1 季) |
資料流 Gen2 中輸出目的地的增強功能(查詢架構) | 出貨 (2024 年第 1 季) |
取消數據流 Gen2 中的重新整理支援 | 出貨 (第 4 季 2023) |
Data Factory 的 Copilot (數據流)
預估發行時程表:Q3 2024
發行類型:正式運作
Data Factory 的 Copilot (Dataflow) 可讓客戶在使用 Dataflows Gen2 建立數據整合解決方案時,使用自然語言表達其需求。
數據流 Gen2 中的累加式重新整理支援
預估發行時程表:Q3 2024
版本類型:公開預覽
我們正在數據流 Gen2 中新增累加式重新整理支援。 這項功能可讓您以累加方式從數據源擷取數據、套用Power Query轉換,以及載入各種輸出目的地。
Azure Databricks 作業的數據管線支援
預估發行時程表:Q3 2024
版本類型:公開預覽
我們正在更新 Data Factory 數據管線 Azure Databricks 活動,以使用最新的作業 API 來啟用令人興奮的工作流程功能,例如執行 DLT 作業。
DBT CLI 的數據管線支援
預估發行時程表:Q3 2024
版本類型:公開預覽
DBT CLI 協調流程(數據建置工具):納入數據轉換工作流程的數據建置工具(dbt)。
數據流 Gen2 中的快速複製支援
預估發行時程表:Q3 2024
發行類型:正式運作
我們會使用管線複製活動功能,直接在數據流 Gen2 體驗中新增大規模數據擷取的支援。 這項增強功能可大幅提升數據流 Gen2 的數據處理容量,以提供大規模的 ELT(Extract-Load-Transform) 功能。
複製作業
預估發行時程表:Q3 2024
版本類型:公開預覽
複製作業可簡化需要內嵌數據的客戶體驗,而不需要建立數據流或數據管線。 複製作業支援從任何數據源到任何數據目的地的完整和累加複製。
資料來源身分識別管理 (受控識別)
預估發行時程表:Q3 2024
版本類型:公開預覽
這可讓受控識別在工作區層級進行設定。 您可以使用網狀架構受控識別安全地連線到您的數據源。
資料來源身分識別管理 (Azure 金鑰保存庫)
預估發行時程表:Q3 2024
版本類型:公開預覽
支援 Azure 金鑰保存庫 - 您可以將金鑰和秘密儲存在 Azure 金鑰保存庫 中,並連線到它。 如此一來,您就可以在單一位置管理密鑰。
Data Factory 的 Copilot (資料管線)
預估發行時程表:Q3 2024
版本類型:公開預覽
Data Factory 的 Copilot (資料管線)可讓客戶使用自然語言建置數據管線,並提供疑難解答指引。
已改善重新整理失敗的電子郵件通知
預估發行時程表:Q3 2024
版本類型:公開預覽
電子郵件通知可讓數據流 Gen2 建立者監視數據流重新整理作業的結果(成功/失敗)。
支援叫用跨工作區數據管線
預估發行時程表:Q3 2024
版本類型:公開預覽
叫用管線活動更新:我們正在為叫用管線活動啟用一些全新且令人興奮的更新。 為了回應壓倒性的客戶和社群要求,我們正在跨工作區執行數據管線。 您現在可以從您有權執行的其他工作區叫用管線。 這可啟用非常令人興奮的數據工作流程模式,以利用數據工程和跨工作區和功能小組的整合小組共同作業。
讓客戶參數化其連線
預估發行時程表:Q4 2024
版本類型:公開預覽
線上提供定義資料存放區連線和驗證的通用架構。 這些連線可以跨不同的項目共用。 透過參數化支援,您將能夠建置複雜且可重複使用的管線、筆記本、數據流和其他項目類型。
出貨功能(秒)
複製活動的新連接器
出貨 (2024 年第 2 季)
版本類型:公開預覽
新的連接器將新增至 複製活動,讓客戶能夠從下列來源擷取,同時利用數據管線:Oracle、MySQL、Azure AI 搜尋、Azure 檔案儲存體、Dynamics AX、Google BigQuery。
數據工作流程:建置由Apache Airflow提供電源的數據管線
出貨 (2024 年第 2 季)
版本類型:公開預覽
數據工作流程由 Apache Airflow 提供支援,並提供整合式 Apache Airflow 運行時間環境,讓您輕鬆撰寫、執行及排程 Python DAG。
SparkJobDefinition 的數據管線支援
出貨 (2024 年第 2 季)
發行類型:正式運作
現在,您可以直接從管線活動執行 Spark 程式代碼,包括 JAR 檔案。 只要指向 Spark 程式代碼,管線就會在 Fabric 中的 Spark 叢集上執行作業。 這項新活動可讓令人興奮的數據工作流程模式運用 Fabric Spark 引擎的強大功能,同時在與 Spark 作業相同的管線中包含 Data Factory 控制流程和數據流功能。
Azure HDInsight 的數據管線支援
出貨 (2024 年第 2 季)
發行類型:正式運作
HDInsight 是適用於 Hadoop 的 Azure PaaS 服務,可讓開發人員在雲端中建置非常強大的巨量數據解決方案。 新的 HDI 管線活動會在 Data Factory 數據管線內啟用 HDInsights 作業活動,類似於您在 ADF 和 Synapse 管線中多年來所加入的現有葬禮。 我們現在已將這項功能直接帶入網狀架構數據管線。
事件驅動觸發程式的數據管線支援
出貨 (2024 年第 2 季)
版本類型:公開預覽
叫用 Data Factory 數據管線的常見使用案例是在檔案抵達和檔案刪除等檔案事件時觸發管線。 對於來自 ADF 或 Synapse 至 Fabric 的客戶,使用 ADLS/Blog 記憶體事件是很常見的方法,可用來發出新管線執行訊號,或擷取所建立檔案的名稱。 Fabric Data Factory 中的觸發程式會利用 Fabric 平臺功能,包括 EventStreams 和 Reflex 觸發程式。 在 Fabric Data Factory 管線設計畫布內,您會有一個 [觸發程式] 按鈕,您可以按下來建立管線的 Reflex 觸發程式,也可以直接從數據啟動器體驗建立觸發程式。
數據流 Gen 2 輸出目的地的暫存預設值
出貨 (2024 年第 2 季)
版本類型:公開預覽
數據流 Gen2 提供將各種數據源的數據內嵌至 Fabric OneLake 的功能。 在暫存此數據時,可利用大規模數據流 Gen2 引擎(以 Fabric Lakehouse/Warehouse SQL 計算為基礎)進行大規模轉換。
數據流 Gen2 的預設行為是在 OneLake 中暫存數據,以啟用大規模的數據轉換。 雖然這很適用於大規模案例,但對於涉及少量數據內嵌的案例,因為它會在最終載入數據流輸出目的地之前,為數據引入額外的躍點(預備),所以效果不佳。
透過規劃的增強功能,我們會針對不需要預備的輸出目的地查詢,微調要停用的預設預備行為(也就是 Fabric Lakehouse 和 Azure SQL 資料庫)。
您可以透過 [查詢設定] 窗格或 [查詢] 窗格中的查詢內容功能表,手動設定每個查詢的暫存行為。
資料來源身分識別管理 (SPN)
出貨 (2024 年第 2 季)
發行類型:正式運作
服務主體 - 若要存取受 Azure AD 租使用者保護的資源,需要存取權的實體必須以安全性主體表示。 您將能夠使用服務主體連線到數據源。
取得資料體驗改善(流覽 Azure 資源)
出貨 (2024 年第 1 季)
版本類型:公開預覽
流覽 Azure 資源可讓您順暢地流覽 Azure 資源。 您可以輕鬆地流覽 Azure 訂用帳戶,並透過直覺式使用者介面連線到數據源。 它可協助您快速尋找並連線到所需的數據。
內部部署數據閘道 (OPDG) 支援已新增至資料管線
出貨 (2024 年第 1 季)
版本類型:公開預覽
這項功能可讓數據管線使用網狀架構數據閘道來存取內部部署和虛擬網路後方的數據。 對於使用自我裝載整合運行時間 (SHIR) 的使用者,他們將能夠移至 Fabric 中的內部部署數據閘道。
數據流 Gen2 中的快速複製支援
出貨 (2024 年第 1 季)
版本類型:公開預覽
我們會使用管線複製活動功能,直接在數據流 Gen2 體驗中新增大規模數據擷取的支援。 這支援 Azure Data Lake Storage 和 Blob 記憶體中的 Azure SQL 資料庫、CSV 和 Parquet 檔案等來源。
這項增強功能可大幅提升數據流 Gen2 的數據處理容量,以提供大規模的 ELT(Extract-Load-Transform) 功能。
適用於數據管線的 Data Factory Git 整合
出貨 (2024 年第 1 季)
版本類型:公開預覽
您可以連線到 Git 存放庫,以共同作業的方式開發數據管線。 數據管線與 Fabric 平臺的應用程式生命週期管理 (ALM) 功能整合可啟用版本控制、分支、認可和提取要求。
資料流 Gen2 中輸出目的地的增強功能(查詢架構)
出貨 (2024 年第 1 季)
版本類型:公開預覽
我們正在使用下列高度要求的功能來增強數據流 Gen2 中的輸出目的地:
- 設定輸出目的地之後,能夠處理查詢架構變更。
- 用來加速數據流建立的預設目的地設定。
若要深入瞭解,請參閱 數據流 Gen2 數據目的地和受控設定
取消數據流 Gen2 中的重新整理支援
出貨 (第 4 季 2023)
版本類型:公開預覽
我們正在新增支援,以取消工作區項目檢視中的數據流 Gen2 重新整理。