共用方式為


Microsoft Fabric 中 Synapse 資料工程師 的新功能和計劃

重要

發行方案描述可能或可能尚未發行的功能。 傳遞時程表和投影功能可能會變更或可能不會出貨。 如需詳細資訊, 請參閱 Microsoft 原則

Synapse 資料工程師 讓數據工程師能夠使用 Spark 大規模轉換其數據,並建置其 Lakehouse 架構。

您所有組織數據的 Lakehouse: Lakehouse 會以單一體驗結合數據湖和數據倉儲的最佳功能。 它可讓使用者在 Lake 中以開放格式內嵌、準備及共用組織數據。 稍後您可以透過 Spark、T-SQL 和 Power BI 等多個引擎加以存取。 它提供各種數據整合選項,例如數據流和管線、外部數據源的快捷方式,以及數據產品共用功能。

高效能的Spark引擎和運行時間: Synapse 數據工程為客戶提供最新版 Spark、Delta 和 Python 的優化 Spark 運行時間。 它會使用 Delta Lake 作為所有引擎的通用數據表格式,讓您輕鬆共用和報告數據,而不需要行動數據。 運行時間隨附 Spark 優化,可增強查詢效能,而不需要任何設定。 它也提供入門集區和高並行模式,以加速和重複使用Spark工作階段,節省您的時間和成本。

Spark 管理員 和設定:具有適當許可權的工作區系統管理員可以建立和設定自定義集區,以優化其Spark工作負載的效能和成本。 建立者可以設定環境來安裝連結庫、選取運行時間版本,以及為其筆記本和Spark作業設定Spark屬性。

開發人員體驗: 開發人員可以使用筆記本、Spark 作業或其慣用的 IDE,在 Fabric 中撰寫和執行 Spark 程式代碼。 他們可以原生存取 Lakehouse 數據、與其他人共同作業、安裝連結庫、追蹤歷程記錄、進行內嵌監視,以及從 Spark 建議程式取得建議。 他們也可以使用 Data Wrangler 輕鬆地使用低程式代碼 UI 來準備數據。

平臺整合: 所有 Synapse 數據工程專案,包括筆記本、Spark 作業、環境和 Lakehouse,都深入整合至 Fabric 平臺(企業資訊管理功能、譜系、敏感度卷標和背書)。

投資領域

功能 預估發行時間表
Fabric 中 GraphQL 的數據 API Q2 2024
Spark 原生執行引擎 Q2 2024
建立和附加環境 Q2 2024
管線中的高併行 Q2 2024
Lakehouse 命名空間中的架構支援和工作區 Q2 2024
Fabric 中的用戶數據函式 Q3 2024
適用於 Fabric 的 VSCode 核心延伸模組 Q3 2024
Fabric 中用戶數據函式的 VSCode 附屬延伸模組 Q3 2024
Web 的 VS Code - 偵錯支援 Q3 2024
能夠在 Lakehouse 中排序和篩選數據表和資料夾 Q3 2024
適用於網狀架構數據倉儲的Spark連線or Q3 2024
公用監視 API Q4 2024
Lakehouse 數據安全性 Q4 2024
Spark 自動調整 出貨 (2024 年第 1 季)
網狀架構Spark的開放式作業許可 出貨 (2024 年第 2 季)
筆記本作業的作業佇列 出貨 (2024 年第 2 季)

Fabric 中 GraphQL 的數據 API

預估發行時程表:Q2 2024

版本類型:公開預覽

GraphQL 的數據 API 可讓網狀架構數據工程師、科學家、數據解決方案架構設計人員輕鬆公開和整合 Fabric 數據,以取得回應性、高效能且豐富的分析應用程式,並利用 GraphQL 的強大功能和彈性。

Spark 原生執行引擎

預估發行時程表:Q2 2024

版本類型:公開預覽

原生執行引擎是 Microsoft Fabric 中 Apache Spark 作業執行的突破性增強功能。 此向量化引擎會直接在 Lakehouse 基礎結構上執行 Spark 查詢,以優化 Spark 查詢的效能和效率。 引擎的無縫整合表示不需要修改程序代碼,並避免廠商鎖定。 它支援 Apache Spark API,且與運行時間 1.2 (Spark 3.4) 相容,而且適用於 Parquet 和 Delta 格式。 不論您數據在 OneLake 中的位置為何,或如果您透過快捷方式存取資料,原生執行引擎都會將效率和效能最大化

建立和附加環境

預估發行時程表:Q2 2024

發行類型:正式運作

若要在更細微的層級自定義 Spark 體驗,您可以建立環境並將其連結至筆記本和 Spark 作業。 在環境中,您可以安裝連結庫、設定新的集區、設定 Spark 屬性,以及將腳本上傳至文件系統。 這可讓您更彈性地控制Spark工作負載,而不會影響工作區的預設設定。 作為 GA 的一部分,我們正在對環境進行各種改進,包括 API 支援和 CI/CD 整合。

管線中的高併行

預估發行時程表:Q2 2024

發行類型:正式運作

除了筆記本中的高並行存取之外,我們也會在管線中啟用高並行存取。 這項功能可讓您使用單一會話在管線中執行多個筆記本。

Lakehouse 命名空間中的架構支援和工作區

預估發行時程表:Q2 2024

版本類型:公開預覽

這可讓您使用架構和跨工作區查詢數據來組織數據表。

Fabric 中的用戶數據函式

預估發行時程表:Q3 2024

版本類型:公開預覽

用戶數據函式會提供強大的機制,讓您在網狀架構數據科學和數據工程工作流程中實作及重複使用自定義、特製化商業規則、提高效率和彈性。

適用於 Fabric 的 VSCode 核心延伸模組

預估發行時程表:Q3 2024

版本類型:公開預覽

適用於 Fabric 的核心 VSCode 延伸模組將提供網狀架構服務的常見開發人員支援。

Fabric 中用戶數據函式的 VSCode 附屬延伸模組

預估發行時程表:Q3 2024

版本類型:公開預覽

用戶數據函式的 VSCode 附屬延伸模組將為 Fabric 中的用戶數據函式提供開發人員支援(編輯、建置、偵錯、發佈)。

Web 的 VS Code - 偵錯支援

預估發行時程表:Q3 2024

版本類型:公開預覽

適用於 Web 的 Visual Studio Code 目前在預覽版中支援撰寫和執行案例。 我們會新增至功能清單,以便使用此擴充功能來偵錯筆記本的程序代碼。

能夠在 Lakehouse 中排序和篩選數據表和資料夾

預估發行時程表:Q3 2024

發行類型:正式運作

這項功能可讓客戶依數種不同的方法排序和篩選 Lakehouse 中的數據表和資料夾,包括依字母順序排列、建立日期等等。

Fabric 數據倉儲的 Spark 連線 or

預估發行時程表:Q3 2024

版本類型:公開預覽

Spark 連線 or for Fabric DW (數據倉儲) 可讓 Spark 開發人員或數據科學家使用簡化的 Spark API 來存取及處理來自網狀架構數據倉儲的數據,這實際上只能與一行程式代碼搭配使用。 它提供從 Fabric 數據倉儲平行查詢數據的能力,以便隨著數據量增加進行調整,並在存取數據表或檢視時,接受數據倉儲層級所定義的安全性模型 (OLS/RLS/CLS)。 此第一個版本僅支援讀取數據,且即將推出回寫數據的支援。

公用監視 API

預估發行時程表:Q4 2024

發行類型:正式運作

公用監視 API 可讓您以程式設計方式擷取 Spark 作業、作業摘要和對應的驅動程式和執行程式記錄的狀態。

Lakehouse 數據安全性

預估發行時程表:Q4 2024

版本類型:公開預覽

您將能夠在 Lakehouse 中套用檔案、資料夾和資料表(或物件層級)安全性。 您也可以控制誰可以存取 Lakehouse 中的數據,以及他們擁有的許可權層級。 例如,您可以授與檔案、資料夾和資料表的讀取許可權。 套用許可權之後,它們會自動在所有引擎之間同步處理。 這表示許可權在Spark、SQL、Power BI和外部引擎之間是一致的。

出貨功能(秒)

Spark 自動調整

出貨 (2024 年第 1 季)

版本類型:公開預覽

Autotune 會使用機器學習來自動分析先前的 Spark 作業執行,並調整設定以將效能優化。 它會設定 Spark 如何分割、聯結和讀取您的數據。 如此一來,它將會大幅改善效能。 我們已看到客戶作業使用這項功能執行速度會快 2 倍。

網狀架構Spark的開放式作業許可

出貨 (2024 年第 2 季)

發行類型:正式運作

使用開放式作業許可時,Fabric Spark 只會根據作業可相應減少的節點數目下限,保留作業需要啟動的核心數目下限。 如果有足夠的資源符合最低需求,這可讓更多工作接受。 如果作業稍後需要相應增加,則會根據容量中的可用核心核准或拒絕相應增加要求。

筆記本作業的作業佇列

出貨 (2024 年第 2 季)

發行類型:正式運作

這項功能可讓已排程的 Spark Notebook 在 Spark 使用量達到可平行執行的作業數目上限時排入佇列,然後在使用量已捨棄低於允許的平行作業數目上限之後執行。