試験 DP-203: Microsoft Azure でのデータエンジニアリングの学習ガイド

2024-09-26

警告

この試験は、2025 年 3 月 31 日午後 11 時 59 分 (中央標準時) に廃止されます。詳細については、を参照してください。

このドキュメントの目的

この学習ガイドは、この試験で想定される内容を理解するのに役立つもので、試験に出る可能性のあるトピックの概要と、その他のリソースへのリンクが掲載されています。このドキュメントの情報と資料は、試験の準備を進めるときに学習の焦点を合わせるのに役立ちます。

便利なリンク	説明
認定資格の取得方法	1 つの試験に合格するだけで取得できる認定資格もありますが、それ以外は、複数の試験に合格する必要があります。
認定資格の更新	Microsoft のアソシエイト、エキスパート、専門の認定資格は、毎年有効期限が切れます。 Microsoft Learn で無料のオンライン評価に合格すると、更新できます。
Microsoft Learn プロファイル	認定プロファイルを Microsoft Learn に接続すると、試験のスケジュール設定と更新、および証明書の共有と印刷を行うことができます。
試験スコアとスコアレポート	合格するには、700 以上のスコアが必要です。
試験サンドボックス	試験サンドボックスにアクセスして、試験の環境を確認できます。
便宜を要求する	支援機器を使用する場合、時間延長が必要な場合、または試験エクスペリエンスのいずれかの部分を変更する必要がある場合は、便宜を図るよう要求できます。
無料の練習用評価を受ける	試験対策用の練習問題で実力を試すことができます。

試験の更新

試験は、ロールを実行するために必要なスキルを反映するように定期的に更新されます。

常に、英語版の試験が最初に更新されます。一部の試験は他の言語にローカライズされており、英語版が更新されてから約 8 週間後に更新されます。その他の利用可能な言語は、試験の詳細 Web ページの「試験のスケジュール設定」セクションに表示されます。試験が希望する言語で実施されていない場合、試験完了までの時間を 30 分延長するように要求できます。

注

評価される各スキルの後に続く箇条書きは、そのスキルをどのようにして評価するかを説明することを目的としています。関連するトピックが試験に出題される可能性があります。

注

ほとんどの問題は一般提供 (GA) の機能について出題されます。プレビュー機能が一般的に使用されている場合は、これらの機能に関する問題が試験に含まれることがあります。

2024 年 10 月 24 日以降で評価されるスキル

視聴者プロフィール

この試験の受験者には、さまざまな構造化、非構造化、ストリーミングデータシステムのデータを、分析ソリューションの構築に適したスキーマに統合、変換、一元化するための専門知識が必要です。

Azure データエンジニアは、利害関係者が探索を通じてデータを理解するのを支援することに加え、セキュリティで保護され準拠しているデータ処理パイプラインを、さまざまなツールや手法を使用して、構築および維持します。さまざまな Azure データサービスとフレームワークを使用して、クリーンで拡張された分析用データセットを格納および生成します。このデータストアは、以下のようなビジネス要件に基づいて、さまざまなアーキテクチャパターンで設計できます。

最新のデータウェアハウス (MDW)。
ビッグデータ
レイクハウスのアーキテクチャ

また、Azure データエンジニアは、一連の特定のビジネス要件と制約の下で、高パフォーマンスで効率的な、整然とした信頼性の高いデータパイプラインとデータストアの操作化を約束するための取り組みも行います。これらの専門家は、運用とデータ品質に関する問題の特定とトラブルシューティングを行うのに役立ちます。また、データパイプラインに合わせて、データプラットフォームの設計、実装、監視、最適化も行います。

この試験の受験者は、次のようなデータ処理言語について確かな知識を持っている必要があります。

SQL
Python
Scala

並列処理とデータアーキテクチャパターンを理解する必要があります。データ処理ソリューションを作成するには、以下の使用方法を習熟している必要があります。

Azure Data Factory
Azure Synapse Analytics
Azure Stream Analytics
Azure Event Hubs
Azure Data Lake Storage
Azure Databricks

スキルの概要

データストレージの設計と実装 (15 - 20%)
データ処理の開発 (40 - 45%)
データストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データストレージの設計と実装 (15 - 20%)

パーティション戦略を実装する

ファイルのパーティション戦略を実装する
分析ワークロードのパーティション戦略を実装する
ストリーミングワークロードのパーティション戦略を実装する
Azure Synapse Analytics のパーティション戦略を実装する
どのようなときに Azure Data Lake Storage Gen2 でパーティション分割が必要かを特定する

データ探索レイヤーを設計して実装する

SQL サーバーレスおよび Spark クラスターを活用するコンピューティングソリューションを使用し、クエリを作成して実行する
Azure Synapse Analytics データベーステンプレートを推奨および実装する
新しいまたは更新されたデータ系列を Microsoft Purview にプッシュする
Microsoft Purview データカタログでメタデータを参照および検索する

データ処理の開発 (40 - 45%)

データの取り込みと変換を行う

増分データ読み込みを設計して実装する
Apache Spark を使用してデータを変換する
Azure Synapse Analytics で Transact-SQL (T-SQL) を使用してデータを変換する
Azure Synapse Pipelines または Azure Data Factory を使用してデータの取り込みと変換を行う
Azure Stream Analytics を使用してデータを変換する
データをクレンジングする
重複データを処理する
Azure Stream Analytics の 1 回限りの配信を使用してデータの重複を回避する
不足データを処理する
到着遅延データを処理する
データを分割する
JSON を細分化する
データのエンコードとデコード
変換のエラー処理を構成する
データの正規化と非正規化を行う
データ調査分析を実行する

バッチ処理ソリューションを開発する

Azure Data Lake Storage Gen2、Azure Databricks、Azure Synapse Analytics、Azure Data Factory を使用してバッチ処理ソリューションを開発する
PolyBase を使用して SQL プールにデータを読み込む
Azure Synapse Link を実装し、レプリケートされたデータに対してクエリを実行する
データパイプラインを作成する
リソースのスケール
バッチサイズを構成する
データパイプラインのテストを作成する
Jupyter または Python ノートブックをデータパイプラインに統合する
バッチデータをアップサートする
データを以前の状態に戻す
例外処理を構成する
バッチ保持を構成する
デルタレイクに対して読み取りと書き込みを行う

ストリーム処理ソリューションを開発する

Stream Analytics と Azure Event Hubs を使用してストリーム処理ソリューションを作成する
Spark 構造化ストリーミングを使用してデータを処理する
ウィンドウ集計を作成する
スキーマドリフトを処理する
時系列データを処理する
パーティション間でデータを処理する
1 つのパーティション内で処理を行う
処理中のチェックポイントとウォーターマークを構成する
リソースのスケール
データパイプラインのテストを作成する
分析またはトランザクション目的でパイプラインを最適化する
割り込みの処理
例外処理を構成する
ストリームデータをアップサートする
アーカイブされたストリームデータを再生する
デルタレイクに対して読み取りと書き込みを行う

バッチとパイプラインを管理する

バッチをトリガーする
失敗したバッチ読み込みを処理する
バッチ読み込みを検証する
Azure Data Factory または Azure Synapse Pipelines でデータパイプラインを管理する
Data Factory または Azure Synapse Pipelines でデータパイプラインをスケジュールする
パイプライン成果物のバージョン管理を実装する
パイプラインで Spark ジョブを管理する

データストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データセキュリティを実装する

データマスキングを実装する
保存時および稼働時のデータの暗号化
行レベルと列レベルのセキュリティを実装する
Azure ロールベースのアクセス制御 (RBAC) を実装する
POSIX に似たアクセス制御リスト (ACL) を Data Lake Storage Gen2 用に実装する
データ保持ポリシーを実装する
セキュリティで保護されたエンドポイント (プライベートとパブリック) を実装する
Azure Databricks にリソーストークンを実装する
機密情報を含む DataFrame を読み込む
暗号化されたデータをテーブルまたは Parquet ファイルに書き込む
機密情報を管理する

データストレージとデータ処理を監視する

Azure Monitor で使用されるログ記録を実装する
監視サービスを構成する
ストリーム処理を監視する
データ移動のパフォーマンスを測定する
システム全体のデータに関する統計を監視および更新する
データパイプラインのパフォーマンスを監視する
クエリのパフォーマンスを測定する
パイプラインテストのスケジュール設定と監視を行う
Azure Monitor のメトリックとログを解釈する
パイプラインアラート戦略を実装する

データストレージとデータ処理の最適化とトラブルシューティングを行う

小さいファイルを圧縮する
データのスキューを処理する
データのスピルを処理する
リソース管理を最適化する
インデクサーを使用してクエリを調整する
キャッシュを使用してクエリを調整する
失敗した Spark ジョブのトラブルシューティングを行う
外部サービスで実行されたアクティビティを含む、失敗したパイプライン実行のトラブルシューティングを行う

学習リソース

試験を受ける前に、トレーニングを行い、実践的な経験を積むことをお勧めします。自己学習のオプションとクラスルームトレーニングのほか、ドキュメント、コミュニティサイト、ビデオへのリンクも提供しています。

学習リソース	ラーニングおよびドキュメントへのリンク
トレーニングを受けよう	マイペースで進められるラーニングパスとモジュールを選択するか、講師による指導付きコースを受講する
ドキュメントの検索	Azure Data Lake Storage Azure Synapse Analytics Azure Databricks Data Factory Azure Stream Analytics Event Hubs Azure Monitor
質問をする	Microsoft Q&A \| Microsoft Docs
コミュニティサポートを受ける	Azure での分析 \| TechCommunity Azure Synapse Analytics \| TechCommunity
Microsoft Learn をフォローする	Microsoft Learn - Microsoft Tech Community
ビデオを見つける	試験準備ゾーン Data Exposed 他の Microsoft Learn ショーを参照する

ログの変更

表を理解するための鍵: トピックグループ (機能グループとも呼ばれます) は太字の書体で、その後に各グループ内の目的が続きます。表は、この試験で評価されるスキルの 2 つのバージョンを比較したもので、3 番目の列は変更の程度を示しています。

2024 年 10 月 24 日より前のスキル領域	2024 年 10 月 24 日以降のスキル領域	Change
データ処理の開発	データ処理の開発	変更なし
データの取り込みと変換を行う	データの取り込みと変換を行う	Minor