試験 DP-203: Microsoft Azure でのデータ エンジニアリングの学習ガイド

このドキュメントの目的

この学習ガイドは、この試験で想定される内容を理解するのに役立つもので、試験に出る可能性のあるトピックの概要と、その他のリソースへのリンクが掲載されています。 このドキュメントの情報と資料は、試験の準備を進めるときに学習の焦点を合わせるのに役立ちます。

便利なリンク 説明
2023 年 11 月 2 日時点で評価されるスキルを確認する この一覧は、指定された日付以降の評価されるスキルを示しています。 この日付以降に受験する予定であれば、この一覧を確認してください。
2023 年 11 月 2 日より前に測定されるスキルを確認する 指定された日付より前に受験する予定であれば、この一覧を確認してください。
ログの変更 指定された日付に行われた変更を確認する場合、変更ログに直接進むことができます。
認定資格の取得方法 1 つの試験に合格するだけで取得できる認定資格もありますが、それ以外は、複数の試験に合格する必要があります。
認定資格の更新 Microsoft のアソシエイト、エキスパート、専門の認定資格は、毎年有効期限が切れます。 Microsoft Learn で無料のオンライン評価に合格すると、更新できます。
Microsoft Learn プロファイル 認定プロファイルを Microsoft Learn に接続すると、試験のスケジュール設定と更新、および証明書の共有と印刷を行うことができます。
試験スコアとスコアレポート 合格するには、700 以上のスコアが必要です。
試験サンドボックス 試験サンドボックスにアクセスして、試験の環境を確認できます。
便宜を要求する 支援機器を使用する場合、時間延長が必要な場合、または試験エクスペリエンスのいずれかの部分を変更する必要がある場合は、便宜を図るよう要求できます。
無料の練習用評価を受ける 試験対策用の練習問題で実力を試すことができます。

試験の更新

試験は、ロールを実行するために必要なスキルを反映するように定期的に更新されます。 試験を受けるタイミングに応じて、2 つのバージョンの評価されるスキルの目標が含まれています。

常に、英語版の試験が最初に更新されます。 一部の試験は他の言語にローカライズされており、英語版が更新されてから約 8 週間後に更新されます。 Microsoft では、前述のようにローカライズ版を更新するためにあらゆる努力を行いますが、場合によっては、予定どおりに試験のローカライズ版が更新されないことがあります。 その他の利用可能な言語は、試験の詳細 Web ページの「試験のスケジュール設定」セクションに表示されます。 試験が希望する言語で実施されていない場合、試験完了までの時間を 30 分延長するように要求できます。

評価される各スキルの後に続く箇条書きは、そのスキルをどのようにして評価するかを説明することを目的としています。 関連するトピックが試験に出題される可能性があります。

ほとんどの問題は一般提供 (GA) の機能について出題されます。 プレビュー機能が一般的に使用されている場合は、これらの機能に関する問題が試験に含まれることがあります。

2023 年 11 月 2 日時点で評価されるスキル

視聴者プロフィール

この試験の受験者には、さまざまな構造化、非構造化、ストリーミング データ システムのデータを、分析ソリューションの構築に適したスキーマに統合、変換、一元化するための専門知識が必要です。

Azure データ エンジニアは、利害関係者が探索を通じてデータを理解するのを支援することに加え、セキュリティで保護され準拠しているデータ処理パイプラインを、さまざまなツールや手法を使用して、構築および維持します。 さまざまな Azure データ サービスとフレームワークを使用して、クリーンで拡張された分析用データセットを格納および生成します。 このデータ ストアは、以下のようなビジネス要件に基づいて、さまざまなアーキテクチャ パターンで設計できます。

  • 管理データ ウェアハウス (MDW)

  • ビッグ データ

  • レイクハウスのアーキテクチャ

また、Azure データ エンジニアは、一連の特定のビジネス要件と制約の下で、高パフォーマンスで効率的な、整然とした信頼性の高いデータ パイプラインとデータ ストアの操作化を約束するための取り組みも行います。 これらの専門家は、運用とデータ品質に関する問題の特定とトラブルシューティングを行うのに役立ちます。 また、データ パイプラインに合わせて、データ プラットフォームの設計、実装、監視、最適化も行います。

この試験の受験者は、次のようなデータ処理言語について確かな知識を持っている必要があります。

  • SQL

  • Python

  • Scala

並列処理とデータ アーキテクチャ パターンを理解する必要があります。 データ処理ソリューションを作成するには、以下の使用方法を習熟している必要があります。

  • Azure Data Factory

  • Azure Synapse Analytics

  • Azure Stream Analytics

  • Azure Event Hubs

  • Azure Data Lake Storage

  • Azure Databricks

スキルの概要

  • データ ストレージの設計と実装 (15 - 20%)

  • データ処理の開発 (40 - 45%)

  • データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データ ストレージの設計と実装 (15 - 20%)

パーティション戦略を実装する

  • ファイルのパーティション戦略を実装する

  • 分析ワークロードのパーティション戦略を実装する

  • ストリーミング ワークロードのパーティション戦略を実装する

  • Azure Synapse Analytics のパーティション戦略を実装する

  • どのようなときに Azure Data Lake Storage Gen2 でパーティション分割が必要かを特定する

データ探索レイヤーを設計して実装する

  • SQL サーバーレスおよび Spark クラスターを活用したコンピューティング ソリューションを使用してクエリを作成および実行する

  • Azure Synapse Analytics データベース テンプレートを推奨および実装する

  • 新しいまたは更新されたデータ系列を Microsoft Purview にプッシュする

  • Microsoft Purview データ カタログでメタデータを参照および検索する

データ処理の開発 (40 - 45%)

データの取り込みと変換を行う

  • 増分読み込みを設計して実装する

  • Apache Spark を使用してデータを変換する

  • Azure Synapse Analytics で Transact-SQL (T-SQL) を使用してデータを変換する

  • Azure Synapse Pipelines または Azure Data Factory を使用してデータの取り込みと変換を行う

  • Azure Stream Analytics を使用してデータを変換する

  • データをクレンジングする

  • 重複データを処理する

  • Azure Stream Analytics の 1 回限りの配信を使用してデータの重複を回避する

  • 不足データを処理する

  • 到着遅延データを処理する

  • データを分割する

  • JSON を細分化する

  • データのエンコードとデコード

  • 変換のエラー処理を構成する

  • データの正規化と非正規化を行う

  • データ調査分析を実行する

バッチ処理ソリューションを開発する

  • Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics、Azure Data Factory を使用してバッチ処理ソリューションを開発する

  • PolyBase を使用して SQL プールにデータを読み込む

  • Azure Synapse Link を実装し、レプリケートされたデータに対してクエリを実行する

  • データ パイプラインを作成する

  • リソースのスケール

  • バッチ サイズを構成する

  • データ パイプラインのテストを作成する

  • Jupyter または Python ノートブックをデータ パイプラインに統合する

  • データをアップサートする

  • データを以前の状態に戻す

  • 例外処理を構成する

  • バッチ保持を構成する

  • デルタ レイクに対して読み取りと書き込みを行う

ストリーム処理ソリューションを開発する

  • Stream Analytics と Azure Event Hubs を使用してストリーム処理ソリューションを作成する

  • Spark 構造化ストリーミングを使用してデータを処理する

  • ウィンドウ集計を作成する

  • スキーマ ドリフトを処理する

  • 時系列データを処理する

  • パーティション間でデータを処理する

  • 1 つのパーティション内で処理を行う

  • 処理中のチェックポイントとウォーターマークを構成する

  • リソースのスケール

  • データ パイプラインのテストを作成する

  • 分析またはトランザクション目的でパイプラインを最適化する

  • 割り込みの処理

  • 例外処理を構成する

  • データをアップサートする

  • アーカイブされたストリーム データを再生する

バッチとパイプラインを管理する

  • バッチをトリガーする

  • 失敗したバッチ読み込みを処理する

  • バッチ読み込みを検証する

  • Azure Data Factory または Azure Synapse Pipelines でデータ パイプラインを管理する

  • Data Factory または Azure Synapse Pipelines でデータ パイプラインをスケジュールする

  • パイプライン成果物のバージョン管理を実装する

  • パイプラインで Spark ジョブを管理する

データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データ セキュリティを実装する

  • データ マスキングを実装する

  • 保存時および稼働時のデータの暗号化

  • 行レベルと列レベルのセキュリティを実装する

  • Azure ロールベースのアクセス制御 (RBAC) を実装する

  • POSIX に似たアクセス制御リスト (ACL) を Data Lake Storage Gen2 用に実装する

  • データ保持ポリシーを実装する

  • セキュリティで保護されたエンドポイント (プライベートとパブリック) を実装する

  • Azure Databricks にリソース トークンを実装する

  • 機密情報を含む DataFrame を読み込む

  • 暗号化されたデータをテーブルまたは Parquet ファイルに書き込む

  • 機密情報を管理する

データ ストレージとデータ処理を監視する

  • Azure Monitor で使用されるログ記録を実装する

  • 監視サービスを構成する

  • ストリーム処理を監視する

  • データ移動のパフォーマンスを測定する

  • システム全体のデータに関する統計を監視および更新する

  • データ パイプラインのパフォーマンスを監視する

  • クエリのパフォーマンスを測定する

  • パイプライン テストのスケジュール設定と監視を行う

  • Azure Monitor のメトリックとログを解釈する

  • パイプライン アラート戦略を実装する

データ ストレージとデータ処理の最適化とトラブルシューティングを行う

  • 小さいファイルを圧縮する

  • データのスキューを処理する

  • データのスピルを処理する

  • リソース管理を最適化する

  • インデクサーを使用してクエリを調整する

  • キャッシュを使用してクエリを調整する

  • 失敗した Spark ジョブのトラブルシューティングを行う

  • 外部サービスで実行されたアクティビティを含む、失敗したパイプライン実行のトラブルシューティングを行う

学習リソース

試験を受ける前に、トレーニングを行い、実践的な経験を積むことをお勧めします。 自己学習のオプションとクラスルーム トレーニングのほか、ドキュメント、コミュニティ サイト、ビデオへのリンクも提供しています。

学習リソース ラーニングおよびドキュメントへのリンク
トレーニングを受けよう マイペースで進められるラーニング パスとモジュールを選択するか、講師による指導付きコースを受講する
ドキュメントの検索 Azure Data Lake Storage
Azure Synapse Analytics
Azure Databricks
Data Factory
Azure Stream Analytics
Event Hubs
Azure Monitor
質問をする Microsoft Q&A | Microsoft Docs
コミュニティ サポートを受ける Azure での分析 | TechCommunity
Azure Synapse Analytics | TechCommunity
Microsoft Learn をフォローする Microsoft Learn - Microsoft Tech Community
ビデオを見つける 試験準備ゾーン
Data Exposed
他の Microsoft Learn ショーを参照する

ログの変更

表を理解するための鍵: トピック グループ (機能グループとも呼ばれます) は太字の書体で、その後に各グループ内の目的が続きます。 表は、この試験で評価されるスキルの 2 つのバージョンを比較したもので、3 番目の列は変更の程度を示しています。

2023 年 11 月 2 日より前のスキル領域 2023 年 11 月 2 日時点のスキル領域 Change
受講者のプロファイル 変更なし
データ ストレージの設計と実装 データ ストレージの設計と実装 変更なし
パーティション戦略を実装する パーティション戦略を実装する 変更なし
データ探索レイヤーを設計して実装する データ探索レイヤーを設計して実装する 変更なし
データ処理の開発 データ処理の開発 変更なし
データの取り込みと変換を行う データの取り込みと変換を行う Minor
バッチ処理ソリューションを開発する バッチ処理ソリューションを開発する 変更なし
ストリーム処理ソリューションを開発する ストリーム処理ソリューションを開発する 変更なし
バッチとパイプラインを管理する バッチとパイプラインを管理する 変更なし
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 データ ストレージとデータ処理のセキュリティ保護、監視、最適化 変更なし
データ セキュリティを実装する データ セキュリティを実装する 変更なし
データ ストレージとデータ処理を監視する データ ストレージとデータ処理を監視する 変更なし
データ ストレージとデータ処理の最適化とトラブルシューティングを行う データ ストレージとデータ処理の最適化とトラブルシューティングを行う 変更なし

2023 年 11 月 2 日より前に評価されるスキル

視聴者プロフィール

この試験の受験者には、さまざまな構造化、非構造化、ストリーミング データ システムのデータを、分析ソリューションの構築に適したスキーマに統合、変換、一元化するための専門知識が必要です。

Azure データ エンジニアは、利害関係者が探索を通じてデータを理解するのを支援することに加え、セキュリティで保護され準拠しているデータ処理パイプラインを、さまざまなツールや手法を使用して、構築および維持します。 このようなプロフェッショナルは、さまざまな Azure データ サービスとフレームワークを使用して、クリーンで拡張された分析用データセットを格納および生成します。 このデータ ストアは、ビジネス要件に基づいて、最新のデータ ウェアハウス (MDW)、ビッグ データ、レイクハウス アーキテクチャなどのさまざまなアーキテクチャ パターンで設計できます。

また、Azure データ エンジニアは、一連の特定のビジネス要件と制約の下で、高パフォーマンスで効率的な、整然とした信頼性の高いデータ パイプラインとデータ ストアの操作化を約束するための取り組みも行います。 これらの専門家は、運用とデータ品質に関する問題の特定とトラブルシューティングを行うのに役立ちます。 また、データ パイプラインに合わせて、データ プラットフォームの設計、実装、監視、最適化も行います。

この試験の受験者は、SQL、Python、Scala などのデータ処理言語に関する確かな知識を持っている必要があります。また、並列処理とデータ アーキテクチャ パターンを理解している必要もあります。 データ処理ソリューションを作成するには、Azure Data Factory、Azure Synapse Analytics、Azure Stream Analytics、Azure Event Hubs、Azure Data Lake Storage、Azure Databricks の使用に習熟している必要があります。

スキルの概要

  • データ ストレージの設計と実装 (15 - 20%)

  • データ処理の開発 (40 - 45%)

  • データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データ ストレージの設計と実装 (15 - 20%)

パーティション戦略を実装する

  • ファイルのパーティション戦略を実装する

  • 分析ワークロードのパーティション戦略を実装する

  • ストリーミング ワークロードのパーティション戦略を実装する

  • Azure Synapse Analytics のパーティション戦略を実装する

  • どのようなときに Azure Data Lake Storage Gen2 でパーティション分割が必要かを特定する

データ探索レイヤーを設計して実装する

  • SQL サーバーレスおよび Spark クラスターを活用したコンピューティング ソリューションを使用してクエリを作成および実行する

  • Azure Synapse Analytics データベース テンプレートを推奨および実装する

  • 新しいまたは更新されたデータ系列を Microsoft Purview にプッシュする

  • Microsoft Purview データ カタログでメタデータを参照および検索する

データ処理の開発 (40 - 45%)

データの取り込みと変換を行う

  • 増分読み込みを設計して実装する

  • Apache Spark を使用してデータを変換する

  • Azure Synapse Analytics で Transact-SQL (T-SQL) を使用してデータを変換する

  • Azure Synapse Pipelines または Azure Data Factory を使用してデータの取り込みと変換を行う

  • Azure Stream Analytics を使用してデータを変換する

  • データをクレンジングする

  • 重複データを処理する

  • 不足データを処理する

  • 到着遅延データを処理する

  • データを分割する

  • JSON を細分化する

  • データのエンコードとデコード

  • 変換のエラー処理を構成する

  • データの正規化と非正規化を行う

  • データ調査分析を実行する

バッチ処理ソリューションを開発する

  • Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics、Azure Data Factory を使用してバッチ処理ソリューションを開発する

  • PolyBase を使用して SQL プールにデータを読み込む

  • Azure Synapse Link を実装し、レプリケートされたデータに対してクエリを実行する

  • データ パイプラインを作成する

  • リソースのスケール

  • バッチ サイズを構成する

  • データ パイプラインのテストを作成する

  • Jupyter または Python ノートブックをデータ パイプラインに統合する

  • データをアップサートする

  • データを以前の状態に戻す

  • 例外処理を構成する

  • バッチ保持を構成する

  • デルタ レイクに対して読み取りと書き込みを行う

ストリーム処理ソリューションを開発する

  • Stream Analytics と Azure Event Hubs を使用してストリーム処理ソリューションを作成する

  • Spark 構造化ストリーミングを使用してデータを処理する

  • ウィンドウ集計を作成する

  • スキーマ ドリフトを処理する

  • 時系列データを処理する

  • パーティション間でデータを処理する

  • 1 つのパーティション内で処理を行う

  • 処理中のチェックポイントとウォーターマークを構成する

  • リソースのスケール

  • データ パイプラインのテストを作成する

  • 分析またはトランザクション目的でパイプラインを最適化する

  • 割り込みの処理

  • 例外処理を構成する

  • データをアップサートする

  • アーカイブされたストリーム データを再生する

バッチとパイプラインを管理する

  • バッチをトリガーする

  • 失敗したバッチ読み込みを処理する

  • バッチ読み込みを検証する

  • Azure Data Factory または Azure Synapse Pipelines でデータ パイプラインを管理する

  • Data Factory または Azure Synapse Pipelines でデータ パイプラインをスケジュールする

  • パイプライン成果物のバージョン管理を実装する

  • パイプラインで Spark ジョブを管理する

データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)

データ セキュリティを実装する

  • データ マスキングを実装する

  • 保存時および稼働時のデータの暗号化

  • 行レベルと列レベルのセキュリティを実装する

  • Azure ロールベースのアクセス制御 (RBAC) を実装する

  • POSIX に似たアクセス制御リスト (ACL) を Data Lake Storage Gen2 用に実装する

  • データ保持ポリシーを実装する

  • セキュリティで保護されたエンドポイント (プライベートとパブリック) を実装する

  • Azure Databricks にリソース トークンを実装する

  • 機密情報を含む DataFrame を読み込む

  • 暗号化されたデータをテーブルまたは Parquet ファイルに書き込む

  • 機密情報を管理する

データ ストレージとデータ処理を監視する

  • Azure Monitor で使用されるログ記録を実装する

  • 監視サービスを構成する

  • ストリーム処理を監視する

  • データ移動のパフォーマンスを測定する

  • システム全体のデータに関する統計を監視および更新する

  • データ パイプラインのパフォーマンスを監視する

  • クエリのパフォーマンスを測定する

  • パイプライン テストのスケジュール設定と監視を行う

  • Azure Monitor のメトリックとログを解釈する

  • パイプライン アラート戦略を実装する

データ ストレージとデータ処理の最適化とトラブルシューティングを行う

  • 小さいファイルを圧縮する

  • データのスキューを処理する

  • データのスピルを処理する

  • リソース管理を最適化する

  • インデクサーを使用してクエリを調整する

  • キャッシュを使用してクエリを調整する

  • 失敗した Spark ジョブのトラブルシューティングを行う

  • 外部サービスで実行されたアクティビティを含む、失敗したパイプライン実行のトラブルシューティングを行う