共用方式為


「測驗 DP-203:Microsoft Azure 上的資料工程」研究指南

警告

此考試於 2025 年 3 月 31 日晚上 11:59(中部標準時間)停售。 深入瞭解

本文件的用途

此學習指南應可協助您理解測驗的內容範圍,並會包含測驗可能涵蓋的主題摘要,以及其他資源的連結。 本文件中的資訊和教材應可協助您專心準備此測驗。

實用的連結 描述
獲取認證的方式 部分認證僅需通過一個測驗,而其他認證則需通過多個測驗。
認證更新 Microsoft Associate、Expert 與 Specialty 認證每年都會到期。 您可以透過通過 Microsoft Learn 的免費線上評量來進行更新。
您的 Microsoft Learn 設定檔 將認證設定檔連線至 Microsoft Learn 可讓您排程與更新測驗,以及分享與列印認證。
測驗計分與成績單 700 分或以上才能通過。
測驗沙箱 您可以瀏覽我們的測驗沙箱,以探索測驗環境。
要求無障礙設施 如果您使用輔具、需要額外的時間,或需要修改測驗體驗的任何部分,您都可以要求便利設施。
參加免費的練習評量 利用練習問題測試技能,以協助您準備測驗。

測驗更新

我們會定期更新測驗,以反映執行角色所需的技能。

我們一律會先更新英文版的測驗。 部分測驗會翻譯成其他語言,而且那些語言版本會在英文版更新後約八週進行更新。 其他可用的語言會列在 [測驗詳細資訊] 網頁的 [安排測驗時間] 區段中。 如果測驗未提供您慣用語言的版本,您可以多要求 30 分鐘來完成測驗。

注意

每種受測驗技能下的項目,旨在說明評估該技能的方式。 測驗會涵蓋相關主題。

注意

大部分的問題都會涵蓋正式發行 (GA) 的功能。 測驗可能包含常用預覽版功能的問題。

截至 2024 年 10 月 24 日評量的技能

對象個人檔案

身為此測驗的應試者,您應該具備主題專業知識,能夠將各種結構化、非結構化和串流資料系統中的資料,整合、轉換及合併成適合建置分析解決方案的結構描述。

身為 Azure 資料工程師,您可以協助利害關係人透過探索來了解資料,並使用不同的工具和技術來建置資料處理管線,並維護其安全性與合規性。 您會使用各種 Azure 資料服務和架構來儲存及產生經過清理和增強的資料集,以供分析。 此資料存放區可根據商務需求使用不同的架構模式進行設計,包括:

  • 新式資料倉儲 (MDW)

  • 巨量資料

  • Lakehouse 架構

身為 Azure 資料工程師,您也可以在指定的一組商務需求和條件約束下,協助確保資料管線和資料存放區的運作都保持高效能、有效率、有條理且穩定可靠。 您可以協助找出作業與資料品質問題,並對其進行疑難排解。 您也會設計、實作及監視資料平台並將其最佳化,以符合資料管線的需求。

身為此測驗的應試者,您必須具備紮實的資料處理語言知識,包括:

  • SQL

  • Python(程式語言)

  • 程式語言 Scala

您必須了解平行處理和資料架構模式。 您應該熟知如何使用下列項目來建立資料處理解決方案:

  • Azure Data Factory

  • Azure Synapse Analytics

  • Azure 串流分析

  • Azure 事件中樞

  • Azure Data Lake 儲存體

  • Azure Databricks

技能一目了然

  • 設計及實作資料儲存體 (15–20%)

  • 開發資料處理 (40–45%)

  • 保護及監視資料儲存體與資料處理,並將其最佳化 (30–35%)

設計及實作資料儲存體 (15–20%)

實作分割策略

  • 實作檔案的分割策略

  • 實作分析工作負載的分割策略

  • 實作串流工作負載的分割策略

  • 實作 Azure Synapse Analytics 的分割策略

  • 識別 Azure Data Lake Storage Gen2 中需要分割的時機

設計及實作資料探索層

  • 使用利用 SQL 無伺服器與 Spark 叢集的計算解決方案來建立及執行查詢

  • 建議及實作 Azure Synapse Analytics 資料庫範本

  • 將新的或更新的資料譜系推送至 Microsoft Purview

  • 在 Microsoft Purview 資料目錄中瀏覽及搜尋中繼資料

開發資料處理 (40–45%)

內嵌及轉換資料

  • 設計及實作累加式資料載入

  • 使用 Apache Spark 來轉換資料

  • 在 Azure Synapse Analytics 中使用 Transact-SQL (T-SQL) 轉換資料

  • 使用 Azure Synapse 管線或 Azure Data Factory 來內嵌及轉換資料

  • 使用 Azure 串流分析來轉換資料

  • 清理資料

  • 處理重複的資料

  • 使用 Azure 串流分析完全一次傳遞以避免重複的資料

  • 處理缺少的資料

  • 處理延遲傳入的資料

  • 分割資料

  • 粉碎 JSON

  • 編碼及解碼資料

  • 設定轉換的錯誤處理

  • 將資料正規化及反正規化

  • 執行資料探勘分析

開發批次處理解決方案

  • 使用 Azure Data Lake Storage Gen2、Azure Databricks、Azure Synapse Analytics 和 Azure Data Factory 來開發批次處理解決方案

  • 使用 PolyBase 將資料載入 SQL 集區

  • 實作 Azure Synapse Link 並查詢複寫的資料

  • 建立資料管線

  • 調整資源

  • 設定批次大小

  • 建立資料管線的測試

  • 將 Jupyter 或 Python 筆記本整合至資料管線中

  • Upsert 批次資料

  • 將資料還原成先前的狀態

  • 設定例外狀況處理

  • 設定批次保留

  • 讀取及寫入 Delta Lake

開發串流處理解決方案

  • 使用串流分析與 Azure 事件中樞來建立串流處理解決方案

  • 使用 Spark 結構化串流來處理資料

  • 建立視窗型彙總

  • 處理結構描述漂移

  • 處理時間序列資料

  • 在分割區之間處理資料

  • 在一個分割區中處理

  • 在處理期間設定檢查點與浮水印

  • 調整資源

  • 建立資料管線的測試

  • 針對分析或交易用途將管線最佳化

  • 處理中斷

  • 設定例外狀況處理

  • Upsert 串流資料

  • 重新執行封存的串流資料

  • 讀取及寫入 Delta Lake

管理批次與管線

  • 觸發批次

  • 處理失敗的批次載入

  • 驗證批次載入

  • 在 Azure Data Factory 或 Azure Synapse 管線中管理資料管線

  • 在 Data Factory 或 Azure Synapse 管線中排程資料管線

  • 實作管線成品的版本控制

  • 管理管線中的 Spark 作業

保護及監視資料儲存體與資料處理,並將其最佳化 (30–35%)

實作資料安全性

  • 實作資料遮罩

  • 加密待用資料和使用中資料

  • 實作資料列層級與資料行層級安全性

  • 實作 Azure 角色型存取控制 (RBAC)

  • 實作適用於 Data Lake Storage Gen2 之類似 POSIX 的存取控制清單 (ACL)

  • 實作資料保留原則

  • 實作安全端點 (私人與公用)

  • 在 Azure Databricks 中實作資源權杖

  • 載入具有敏感性資訊的 DataFrame

  • 將加密的資料寫入資料表或 Parquet 檔案

  • 管理敏感性資訊

監視資料儲存體與資料處理

  • 實作 Azure 監視器所使用的記錄

  • 設定監視服務

  • 監視串流處理

  • 測量資料移動的效能

  • 監視及更新整個系統資料的統計資料

  • 監視資料管線效能

  • 測量查詢效能

  • 排程及監視管線測試

  • 解譯 Azure 監視器計量與記錄

  • 實作管線警示策略

針對資料儲存體與資料處理進行最佳化及疑難排解

  • 壓縮小型檔案

  • 處理資料中的扭曲

  • 處理資料溢寫

  • 將資源管理最佳化

  • 使用索引子來調整查詢

  • 使用快取來調整查詢

  • 針對失敗的 Spark 作業進行疑難排解

  • 針對失敗的管線執行進行疑難排解,包括在外部服務中執行的活動

學習資源

建議您在參加測驗之前,先進行訓練並取得實作經驗。 我們提供了自學選項和課堂訓練,以及文件、社群網站和影片的連結。

學習資源 學習和文件的連結
接受訓練 從自學型學習路徑與課程模組中選擇,或參加導學型課程
尋找文件 Azure Data Lake 儲存體
Azure Synapse Analytics
Azure Databricks
Data Factory
Azure 串流分析
事件中樞
Azure 監視器
提出問題 Microsoft問答 |Microsoft Docs
取得社群支援 Azure 上的分析 | TechCommunity (英文)
Azure Synapse Analytics | TechCommunity (英文)
追蹤 Microsoft Learn Microsoft Learn - Microsoft Tech Community (英文)
尋找影片 測驗整備區域
公開的資料
瀏覽其他 Microsoft Learn 節目

變更記錄檔

資料表理解要點:主題群組 (也稱為功能群組) 的字體為粗體,其後為每個群組的目標。 這份資料表會比較受測驗技能的兩種版本,而資料表中的第三個資料行則會描述變更範圍。

2024 年 10 月 24 日前的技能領域 截至 2024 年 10 月 24 日的技能領域 變更
開發資料處理 開發資料處理 沒有變化
內嵌及轉換資料 內嵌及轉換資料 輕微