警告
此考試於 2025 年 3 月 31 日晚上 11:59(中部標準時間)停售。 深入瞭解。
本文件的用途
此學習指南應可協助您理解測驗的內容範圍,並會包含測驗可能涵蓋的主題摘要,以及其他資源的連結。 本文件中的資訊和教材應可協助您專心準備此測驗。
實用的連結 | 描述 |
---|---|
獲取認證的方式 | 部分認證僅需通過一個測驗,而其他認證則需通過多個測驗。 |
認證更新 | Microsoft Associate、Expert 與 Specialty 認證每年都會到期。 您可以透過通過 Microsoft Learn 的免費線上評量來進行更新。 |
您的 Microsoft Learn 設定檔 | 將認證設定檔連線至 Microsoft Learn 可讓您排程與更新測驗,以及分享與列印認證。 |
測驗計分與成績單 | 700 分或以上才能通過。 |
測驗沙箱 | 您可以瀏覽我們的測驗沙箱,以探索測驗環境。 |
要求無障礙設施 | 如果您使用輔具、需要額外的時間,或需要修改測驗體驗的任何部分,您都可以要求便利設施。 |
參加免費的練習評量 | 利用練習問題測試技能,以協助您準備測驗。 |
測驗更新
我們會定期更新測驗,以反映執行角色所需的技能。
我們一律會先更新英文版的測驗。 部分測驗會翻譯成其他語言,而且那些語言版本會在英文版更新後約八週進行更新。 其他可用的語言會列在 [測驗詳細資訊] 網頁的 [安排測驗時間] 區段中。 如果測驗未提供您慣用語言的版本,您可以多要求 30 分鐘來完成測驗。
注意
每種受測驗技能下的項目,旨在說明評估該技能的方式。 測驗會涵蓋相關主題。
注意
大部分的問題都會涵蓋正式發行 (GA) 的功能。 測驗可能包含常用預覽版功能的問題。
截至 2024 年 10 月 24 日評量的技能
對象個人檔案
身為此測驗的應試者,您應該具備主題專業知識,能夠將各種結構化、非結構化和串流資料系統中的資料,整合、轉換及合併成適合建置分析解決方案的結構描述。
身為 Azure 資料工程師,您可以協助利害關係人透過探索來了解資料,並使用不同的工具和技術來建置資料處理管線,並維護其安全性與合規性。 您會使用各種 Azure 資料服務和架構來儲存及產生經過清理和增強的資料集,以供分析。 此資料存放區可根據商務需求使用不同的架構模式進行設計,包括:
新式資料倉儲 (MDW)
巨量資料
Lakehouse 架構
身為 Azure 資料工程師,您也可以在指定的一組商務需求和條件約束下,協助確保資料管線和資料存放區的運作都保持高效能、有效率、有條理且穩定可靠。 您可以協助找出作業與資料品質問題,並對其進行疑難排解。 您也會設計、實作及監視資料平台並將其最佳化,以符合資料管線的需求。
身為此測驗的應試者,您必須具備紮實的資料處理語言知識,包括:
SQL
Python(程式語言)
程式語言 Scala
您必須了解平行處理和資料架構模式。 您應該熟知如何使用下列項目來建立資料處理解決方案:
Azure Data Factory
Azure Synapse Analytics
Azure 串流分析
Azure 事件中樞
Azure Data Lake 儲存體
Azure Databricks
技能一目了然
設計及實作資料儲存體 (15–20%)
開發資料處理 (40–45%)
保護及監視資料儲存體與資料處理,並將其最佳化 (30–35%)
設計及實作資料儲存體 (15–20%)
實作分割策略
實作檔案的分割策略
實作分析工作負載的分割策略
實作串流工作負載的分割策略
實作 Azure Synapse Analytics 的分割策略
識別 Azure Data Lake Storage Gen2 中需要分割的時機
設計及實作資料探索層
使用利用 SQL 無伺服器與 Spark 叢集的計算解決方案來建立及執行查詢
建議及實作 Azure Synapse Analytics 資料庫範本
將新的或更新的資料譜系推送至 Microsoft Purview
在 Microsoft Purview 資料目錄中瀏覽及搜尋中繼資料
開發資料處理 (40–45%)
內嵌及轉換資料
設計及實作累加式資料載入
使用 Apache Spark 來轉換資料
在 Azure Synapse Analytics 中使用 Transact-SQL (T-SQL) 轉換資料
使用 Azure Synapse 管線或 Azure Data Factory 來內嵌及轉換資料
使用 Azure 串流分析來轉換資料
清理資料
處理重複的資料
使用 Azure 串流分析完全一次傳遞以避免重複的資料
處理缺少的資料
處理延遲傳入的資料
分割資料
粉碎 JSON
編碼及解碼資料
設定轉換的錯誤處理
將資料正規化及反正規化
執行資料探勘分析
開發批次處理解決方案
使用 Azure Data Lake Storage Gen2、Azure Databricks、Azure Synapse Analytics 和 Azure Data Factory 來開發批次處理解決方案
使用 PolyBase 將資料載入 SQL 集區
實作 Azure Synapse Link 並查詢複寫的資料
建立資料管線
調整資源
設定批次大小
建立資料管線的測試
將 Jupyter 或 Python 筆記本整合至資料管線中
Upsert 批次資料
將資料還原成先前的狀態
設定例外狀況處理
設定批次保留
讀取及寫入 Delta Lake
開發串流處理解決方案
使用串流分析與 Azure 事件中樞來建立串流處理解決方案
使用 Spark 結構化串流來處理資料
建立視窗型彙總
處理結構描述漂移
處理時間序列資料
在分割區之間處理資料
在一個分割區中處理
在處理期間設定檢查點與浮水印
調整資源
建立資料管線的測試
針對分析或交易用途將管線最佳化
處理中斷
設定例外狀況處理
Upsert 串流資料
重新執行封存的串流資料
讀取及寫入 Delta Lake
管理批次與管線
觸發批次
處理失敗的批次載入
驗證批次載入
在 Azure Data Factory 或 Azure Synapse 管線中管理資料管線
在 Data Factory 或 Azure Synapse 管線中排程資料管線
實作管線成品的版本控制
管理管線中的 Spark 作業
保護及監視資料儲存體與資料處理,並將其最佳化 (30–35%)
實作資料安全性
實作資料遮罩
加密待用資料和使用中資料
實作資料列層級與資料行層級安全性
實作 Azure 角色型存取控制 (RBAC)
實作適用於 Data Lake Storage Gen2 之類似 POSIX 的存取控制清單 (ACL)
實作資料保留原則
實作安全端點 (私人與公用)
在 Azure Databricks 中實作資源權杖
載入具有敏感性資訊的 DataFrame
將加密的資料寫入資料表或 Parquet 檔案
管理敏感性資訊
監視資料儲存體與資料處理
實作 Azure 監視器所使用的記錄
設定監視服務
監視串流處理
測量資料移動的效能
監視及更新整個系統資料的統計資料
監視資料管線效能
測量查詢效能
排程及監視管線測試
解譯 Azure 監視器計量與記錄
實作管線警示策略
針對資料儲存體與資料處理進行最佳化及疑難排解
壓縮小型檔案
處理資料中的扭曲
處理資料溢寫
將資源管理最佳化
使用索引子來調整查詢
使用快取來調整查詢
針對失敗的 Spark 作業進行疑難排解
針對失敗的管線執行進行疑難排解,包括在外部服務中執行的活動
學習資源
建議您在參加測驗之前,先進行訓練並取得實作經驗。 我們提供了自學選項和課堂訓練,以及文件、社群網站和影片的連結。
學習資源 | 學習和文件的連結 |
---|---|
接受訓練 | 從自學型學習路徑與課程模組中選擇,或參加導學型課程 |
尋找文件 |
Azure Data Lake 儲存體 Azure Synapse Analytics Azure Databricks Data Factory Azure 串流分析 事件中樞 Azure 監視器 |
提出問題 | Microsoft問答 |Microsoft Docs |
取得社群支援 |
Azure 上的分析 | TechCommunity (英文) Azure Synapse Analytics | TechCommunity (英文) |
追蹤 Microsoft Learn | Microsoft Learn - Microsoft Tech Community (英文) |
尋找影片 |
測驗整備區域 公開的資料 瀏覽其他 Microsoft Learn 節目 |
變更記錄檔
資料表理解要點:主題群組 (也稱為功能群組) 的字體為粗體,其後為每個群組的目標。 這份資料表會比較受測驗技能的兩種版本,而資料表中的第三個資料行則會描述變更範圍。
2024 年 10 月 24 日前的技能領域 | 截至 2024 年 10 月 24 日的技能領域 | 變更 |
---|---|---|
開發資料處理 | 開發資料處理 | 沒有變化 |
內嵌及轉換資料 | 內嵌及轉換資料 | 輕微 |