Microsoft Fabric 中的 Synapse 資料工程師 新功能和計劃
重要
發行方案描述可能或可能尚未發行的功能。 傳遞時程表和投影功能可能會變更或可能不會出貨。 如需詳細資訊,請參閱Microsoft原則。
Synapse 資料工程師 讓數據工程師能夠使用 Spark 大規模轉換其數據,並建置其 Lakehouse 架構。
您所有組織數據的 Lakehouse: Lakehouse 會以單一體驗結合數據湖和數據倉儲的最佳功能。 它可讓使用者在 Lake 中以開放格式內嵌、準備及共用組織數據。 稍後您可以透過 Spark、T-SQL 和 Power BI 等多個引擎加以存取。 它提供各種數據整合選項,例如數據流和管線、外部數據源的快捷方式,以及數據產品共用功能。
高效能的Spark引擎和運行時間: Synapse 數據工程為客戶提供最新版 Spark、Delta 和 Python 的優化 Spark 運行時間。 它會使用 Delta Lake 作為所有引擎的通用數據表格式,讓您輕鬆共用和報告數據,而不需要行動數據。 運行時間隨附 Spark 優化,可增強查詢效能,而不需要任何設定。 它也提供入門集區和高並行模式,以加速和重複使用Spark工作階段,節省您的時間和成本。
Spark 管理員和設定: 具有適當許可權的工作區系統管理員可以建立和設定自定義集區,以優化其Spark工作負載的效能和成本。 建立者可以設定環境來安裝連結庫、選取運行時間版本,以及為其筆記本和Spark作業設定Spark屬性。
開發人員體驗: 開發人員可以使用筆記本、Spark 作業或其慣用的 IDE,在 Fabric 中撰寫和執行 Spark 程式代碼。 他們可以原生存取 Lakehouse 數據、與其他人共同作業、安裝連結庫、追蹤歷程記錄、進行內嵌監視,以及從 Spark 建議程式取得建議。 他們也可以使用 Data Wrangler 輕鬆地使用低程式代碼 UI 來準備數據。
平臺整合: 所有 Synapse 數據工程專案,包括筆記本、Spark 作業、環境和 Lakehouse,都深入整合至 Fabric 平臺(企業資訊管理功能、譜系、敏感度卷標和背書)。
投資領域
功能 | 預估發行時間表 |
---|---|
管線中的高併行 | Q3 2024 |
Web 的 VS Code - 偵錯支援 | Q3 2024 |
適用於 Fabric 的 VSCode 核心延伸模組 | Q3 2024 |
Fabric 中用戶數據函式的 VSCode 附屬延伸模組 | Q3 2024 |
能夠在 Lakehouse 中排序和篩選數據表和資料夾 | Q4 2024 |
公用監視 API | Q4 2024 |
Lakehouse 數據安全性 | Q4 2024 |
Lakehouse 命名空間中的架構支援和工作區 | 出貨 (第 3 季 2024) |
適用於 Fabric 數據倉儲的 Spark 連接器 | 出貨 (2024 年第 2 季) |
Spark 原生執行引擎 | 出貨 (2024 年第 2 季) |
建立和附加環境 | 出貨 (2024 年第 2 季) |
Microsoft GraphQL 的網狀架構 API | 出貨 (2024 年第 2 季) |
筆記本作業的作業佇列 | 出貨 (2024 年第 2 季) |
網狀架構Spark的開放式作業許可 | 出貨 (2024 年第 2 季) |
Spark 自動調整 | 出貨 (2024 年第 1 季) |
管線中的高併行
預估發行時程表:Q3 2024
發行類型:正式運作
除了筆記本中的高並行存取之外,我們也會在管線中啟用高並行存取。 這項功能可讓您使用單一會話在管線中執行多個筆記本。
Web 的 VS Code - 偵錯支援
預估發行時程表:Q3 2024
版本類型:公開預覽
適用於 Web 的 Visual Studio Code 目前在預覽版中支援撰寫和執行案例。 我們會新增至功能清單,以便使用此擴充功能來偵錯筆記本的程序代碼。
適用於 Fabric 的 VSCode 核心延伸模組
預估發行時程表:Q3 2024
版本類型:公開預覽
適用於 Fabric 的核心 VSCode 延伸模組將提供網狀架構服務的常見開發人員支援。
Fabric 中用戶數據函式的 VSCode 附屬延伸模組
預估發行時程表:Q3 2024
版本類型:公開預覽
用戶數據函式的 VSCode 附屬延伸模組將為 Fabric 中的用戶數據函式提供開發人員支援(編輯、建置、偵錯、發佈)。
能夠在 Lakehouse 中排序和篩選數據表和資料夾
預估發行時程表:Q4 2024
發行類型:正式運作
這項功能可讓客戶依數種不同的方法排序和篩選 Lakehouse 中的數據表和資料夾,包括依字母順序排列、建立日期等等。
公用監視 API
預估發行時程表:Q4 2024
發行類型:正式運作
公用監視 API 可讓您以程式設計方式擷取 Spark 作業、作業摘要和對應的驅動程式和執行程式記錄的狀態。
Lakehouse 數據安全性
預估發行時程表:Q4 2024
版本類型:公開預覽
您將能夠在 Lakehouse 中套用檔案、資料夾和資料表(或物件層級)安全性。 您也可以控制誰可以存取 Lakehouse 中的數據,以及他們擁有的許可權層級。 例如,您可以授與檔案、資料夾和資料表的讀取許可權。 套用許可權之後,它們會自動在所有引擎之間同步處理。 這表示許可權在Spark、SQL、Power BI和外部引擎之間是一致的。
出貨功能(秒)
Lakehouse 命名空間中的架構支援和工作區
出貨 (第 3 季 2024)
版本類型:公開預覽
這可讓您使用架構和跨工作區查詢數據來組織數據表。
適用於 Fabric 數據倉儲的 Spark 連接器
出貨 (2024 年第 2 季)
版本類型:公開預覽
適用於 Fabric DW 的 Spark 連接器 (資料倉儲) 可讓 Spark 開發人員或數據科學家使用簡化的 Spark API,從網狀架構數據倉儲存取及處理數據,其字面上只使用一行程式代碼。 它提供從 Fabric 數據倉儲平行查詢數據的能力,以便隨著數據量增加進行調整,並在存取數據表或檢視時,接受數據倉儲層級所定義的安全性模型 (OLS/RLS/CLS)。 此第一個版本僅支援讀取數據,且即將推出回寫數據的支援。
Spark 原生執行引擎
出貨 (2024 年第 2 季)
版本類型:公開預覽
原生執行引擎是 Microsoft Fabric 中 Apache Spark 工作執行的開創性加強程式。 此向量化引擎會直接在 Lakehouse 基礎結構上執行 Spark 查詢,以最佳化 Spark 查詢的效能和效率。 引擎的無縫整合表示不需要修改程式碼,並避免廠商鎖定。 它支援 Apache Spark API,且與執行階段 1.2 (Spark 3.4) 相容,而且適用於 Parquet 和 Delta 格式。 不論您數據在 OneLake 中的位置為何,或如果您透過快捷方式存取資料,原生執行引擎都會將效率和效能最大化
建立和附加環境
出貨 (2024 年第 2 季)
發行類型:正式運作
若要在更細微的層級自定義 Spark 體驗,您可以建立環境並將其連結至筆記本和 Spark 作業。 在環境中,您可以安裝連結庫、設定新的集區、設定 Spark 屬性,以及將腳本上傳至文件系統。 這可讓您更彈性地控制Spark工作負載,而不會影響工作區的預設設定。 作為 GA 的一部分,我們正在對環境進行各種改進,包括 API 支援和 CI/CD 整合。
Microsoft GraphQL 的網狀架構 API
出貨 (2024 年第 2 季)
版本類型:公開預覽
適用於 GraphQL 的 API 可讓網狀架構數據工程師、科學家、數據解決方案架構設計人員毫不費力地公開和整合 Fabric 數據,以利用 GraphQL 的強大功能和彈性,以更回應、高效能且豐富的分析應用程式。
筆記本作業的作業佇列
出貨 (2024 年第 2 季)
發行類型:正式運作
這項功能可讓已排程的 Spark Notebook 在 Spark 使用量達到可平行執行的作業數目上限時排入佇列,然後在使用量已捨棄低於允許的平行作業數目上限之後執行。
網狀架構Spark的開放式作業許可
出貨 (2024 年第 2 季)
發行類型:正式運作
使用開放式作業許可時,Fabric Spark 只會根據作業可相應減少的節點數目下限,保留作業需要啟動的核心數目下限。 如果有足夠的資源符合最低需求,這可讓更多工作接受。 如果作業稍後需要相應增加,則會根據容量中的可用核心核准或拒絕相應增加要求。
Spark 自動調整
出貨 (2024 年第 1 季)
版本類型:公開預覽
Autotune 會使用機器學習來自動分析先前的 Spark 作業執行,並調整設定以將效能優化。 它會設定 Spark 如何分割、聯結和讀取您的數據。 如此一來,它將會大幅改善效能。 我們已看到客戶作業使用這項功能執行速度會快 2 倍。