試験 DP-203: Microsoft Azure でのデータ エンジニアリングの学習ガイド
このドキュメントの目的
この学習ガイドは、この試験で想定される内容を理解するのに役立つもので、試験に出る可能性のあるトピックの概要と、その他のリソースへのリンクが掲載されています。 このドキュメントの情報と資料は、試験の準備を進めるときに学習の焦点を合わせるのに役立ちます。
便利なリンク | 説明 |
---|---|
2023 年 11 月 2 日時点で評価されるスキルを確認する | この一覧は、指定された日付以降の評価されるスキルを示しています。 この日付以降に受験する予定であれば、この一覧を確認してください。 |
2023 年 11 月 2 日より前に評価されるスキルを確認する | 指定された日付より前に受験する予定であれば、この一覧を確認してください。 |
ログの変更 | 指定された日付に行われた変更を確認する場合、変更ログに直接進むことができます。 |
認定資格の取得方法 | 1 つの試験に合格するだけで取得できる認定資格もありますが、それ以外は、複数の試験に合格する必要があります。 |
認定資格の更新 | Microsoft のアソシエイト、エキスパート、専門の認定資格は、毎年有効期限が切れます。 Microsoft Learn で無料のオンライン評価に合格すると、更新できます。 |
Microsoft Learn プロファイル | 認定プロファイルを Microsoft Learn に接続すると、試験のスケジュール設定と更新、および証明書の共有と印刷を行うことができます。 |
試験スコアとスコアレポート | 合格するには、700 以上のスコアが必要です。 |
試験サンドボックス | 試験サンドボックスにアクセスして、試験の環境を確認できます。 |
Request accommodations | 支援機器を使用する場合、時間延長が必要な場合、または試験エクスペリエンスのいずれかの部分を変更する必要がある場合は、便宜を図るよう要求できます。 |
無料の練習用評価を受ける | 試験対策用の練習問題で実力を試すことができます。 |
試験の更新
試験は、ロールを実行するために必要なスキルを反映するように定期的に更新されます。 試験を受けるタイミングに応じて、2 つのバージョンの評価されるスキルの目標が含まれています。
常に、英語版の試験が最初に更新されます。 一部の試験は他の言語にローカライズされており、英語版が更新されてから約 8 週間後に更新されます。 Microsoft では、前述のようにローカライズ版を更新するためにあらゆる努力を行いますが、場合によっては、予定どおりに試験のローカライズ版が更新されないことがあります。 その他の利用可能な言語は、試験の詳細 Web ページの「試験のスケジュール設定」セクションに表示されます。 試験が希望する言語で実施されていない場合、試験完了までの時間を 30 分延長するように要求できます。
Note
評価される各スキルの後に続く箇条書きは、そのスキルをどのようにして評価するかを説明することを目的としています。 関連するトピックが試験に出題される可能性があります。
Note
ほとんどの問題は一般提供 (GA) の機能について出題されます。 プレビュー機能が一般的に使用されている場合は、これらの機能に関する問題が試験に含まれることがあります。
2023 年 11 月 2 日時点で評価されるスキル
視聴者プロフィール
この試験の受験者には、さまざまな構造化、非構造化、ストリーミング データ システムのデータを、分析ソリューションの構築に適したスキーマに統合、変換、一元化するための専門知識が必要です。
Azure データ エンジニアは、利害関係者が探索を通じてデータを理解するのを支援することに加え、セキュリティで保護され準拠しているデータ処理パイプラインを、さまざまなツールや手法を使用して、構築および維持します。 さまざまな Azure データ サービスとフレームワークを使用して、クリーンで拡張された分析用データセットを格納および生成します。 このデータ ストアは、以下のようなビジネス要件に基づいて、さまざまなアーキテクチャ パターンで設計できます。
管理データ ウェアハウス (MDW)
ビッグ データ
レイクハウスのアーキテクチャ
また、Azure データ エンジニアは、一連の特定のビジネス要件と制約の下で、高パフォーマンスで効率的な、整然とした信頼性の高いデータ パイプラインとデータ ストアの操作化を約束するための取り組みも行います。 これらの専門家は、運用とデータ品質に関する問題の特定とトラブルシューティングを行うのに役立ちます。 また、データ パイプラインに合わせて、データ プラットフォームの設計、実装、監視、最適化も行います。
この試験の受験者は、次のようなデータ処理言語について確かな知識を持っている必要があります。
SQL
Python
Scala
並列処理とデータ アーキテクチャ パターンを理解する必要があります。 データ処理ソリューションを作成するには、以下の使用方法を習熟している必要があります。
Azure Data Factory
Azure Synapse Analytics
Azure Stream Analytics
Azure Event Hubs
Azure Data Lake Storage
Azure Databricks
スキルの概要
データ ストレージの設計と実装 (15 - 20%)
データ処理の開発 (40 - 45%)
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)
データ ストレージの設計と実装 (15 - 20%)
パーティション戦略を実装する
ファイルのパーティション戦略を実装する
分析ワークロードのパーティション戦略を実装する
ストリーミング ワークロードのパーティション戦略を実装する
Azure Synapse Analytics のパーティション戦略を実装する
どのようなときに Azure Data Lake Storage Gen2 でパーティション分割が必要かを特定する
データ探索レイヤーを設計して実装する
SQL サーバーレスおよび Spark クラスターを活用したコンピューティング ソリューションを使用してクエリを作成および実行する
Azure Synapse Analytics データベース テンプレートを推奨および実装する
新しいまたは更新されたデータ系列を Microsoft Purview にプッシュする
Microsoft Purview データ カタログでメタデータを参照および検索する
データ処理の開発 (40 - 45%)
データの取り込みと変換を行う
増分読み込みを設計して実装する
Apache Spark を使用してデータを変換する
Azure Synapse Analytics で Transact-SQL (T-SQL) を使用してデータを変換する
Azure Synapse Pipelines または Azure Data Factory を使用してデータの取り込みと変換を行う
Azure Stream Analytics を使用してデータを変換する
データをクレンジングする
重複データを処理する
Azure Stream Analytics の 1 回限りの配信を使用してデータの重複を回避する
不足データを処理する
到着遅延データを処理する
データを分割する
JSON を細分化する
データのエンコードとデコード
変換のエラー処理を構成する
データの正規化と非正規化を行う
データ調査分析を実行する
バッチ処理ソリューションを開発する
Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics、Azure Data Factory を使用してバッチ処理ソリューションを開発する
PolyBase を使用して SQL プールにデータを読み込む
Azure Synapse Link を実装し、レプリケートされたデータに対してクエリを実行する
データ パイプラインを作成する
リソースのスケール
バッチ サイズを構成する
データ パイプラインのテストを作成する
Jupyter または Python ノートブックをデータ パイプラインに統合する
データをアップサートする
データを以前の状態に戻す
例外処理を構成する
バッチ保持を構成する
デルタ レイクに対して読み取りと書き込みを行う
ストリーム処理ソリューションを開発する
Stream Analytics と Azure Event Hubs を使用してストリーム処理ソリューションを作成する
Spark 構造化ストリーミングを使用してデータを処理する
ウィンドウ集計を作成する
スキーマ ドリフトを処理する
時系列データを処理する
パーティション間でデータを処理する
1 つのパーティション内で処理を行う
処理中のチェックポイントとウォーターマークを構成する
リソースのスケール
データ パイプラインのテストを作成する
分析またはトランザクション目的でパイプラインを最適化する
割り込みの処理
例外処理を構成する
データをアップサートする
アーカイブされたストリーム データを再生する
バッチとパイプラインを管理する
バッチをトリガーする
失敗したバッチ読み込みを処理する
バッチ読み込みを検証する
Azure Data Factory または Azure Synapse Pipelines でデータ パイプラインを管理する
Data Factory または Azure Synapse Pipelines でデータ パイプラインをスケジュールする
パイプライン成果物のバージョン管理を実装する
パイプラインで Spark ジョブを管理する
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)
データ セキュリティを実装する
データ マスキングを実装する
保存時および稼働時のデータの暗号化
行レベルと列レベルのセキュリティを実装する
Azure ロールベースのアクセス制御 (RBAC) を実装する
POSIX に似たアクセス制御リスト (ACL) を Data Lake Storage Gen2 用に実装する
データ保持ポリシーを実装する
セキュリティで保護されたエンドポイント (プライベートとパブリック) を実装する
Azure Databricks にリソース トークンを実装する
機密情報を含む DataFrame を読み込む
暗号化されたデータをテーブルまたは Parquet ファイルに書き込む
機密情報を管理する
データ ストレージとデータ処理を監視する
Azure Monitor で使用されるログ記録を実装する
監視サービスを構成する
ストリーム処理を監視する
データ移動のパフォーマンスを測定する
システム全体のデータに関する統計を監視および更新する
データ パイプラインのパフォーマンスを監視する
クエリのパフォーマンスを測定する
パイプライン テストのスケジュール設定と監視を行う
Azure Monitor のメトリックとログを解釈する
パイプライン アラート戦略を実装する
データ ストレージとデータ処理の最適化とトラブルシューティングを行う
小さいファイルを圧縮する
データのスキューを処理する
データのスピルを処理する
リソース管理を最適化する
インデクサーを使用してクエリを調整する
キャッシュを使用してクエリを調整する
失敗した Spark ジョブのトラブルシューティングを行う
外部サービスで実行されたアクティビティを含む、失敗したパイプライン実行のトラブルシューティングを行う
学習リソース
試験を受ける前に、トレーニングを行い、実践的な経験を積むことをお勧めします。 自己学習のオプションとクラスルーム トレーニングのほか、ドキュメント、コミュニティ サイト、ビデオへのリンクも提供しています。
学習リソース | ラーニングおよびドキュメントへのリンク |
---|---|
トレーニングを受けよう | マイペースで進められるラーニング パスとモジュールを選択するか、講師による指導付きコースを受講する |
ドキュメントの検索 | Azure Data Lake Storage Azure Synapse Analytics Azure Databricks Data Factory Azure Stream Analytics Event Hubs Azure Monitor |
質問をする | Microsoft Q&A | Microsoft Docs |
コミュニティ サポートを受ける | Azure での分析 | TechCommunity Azure Synapse Analytics | TechCommunity |
Microsoft Learn をフォローする | Microsoft Learn - Microsoft Tech Community |
ビデオを見つける | 試験準備ゾーン Data Exposed 他の Microsoft Learn ショーを参照する |
ログの変更
表を理解するための鍵: トピック グループ (機能グループとも呼ばれます) は太字の書体で、その後に各グループ内の目的が続きます。 表は、この試験で評価されるスキルの 2 つのバージョンを比較したもので、3 番目の列は変更の程度を示しています。
2023 年 11 月 2 日より前のスキル領域 | 2023 年 11 月 2 日時点のスキル領域 | Change |
---|---|---|
視聴者プロフィール | 変更なし | |
データ ストレージの設計と実装 | データ ストレージの設計と実装 | 変更なし |
パーティション戦略を実装する | パーティション戦略を実装する | 変更なし |
データ探索レイヤーを設計して実装する | データ探索レイヤーを設計して実装する | 変更なし |
データ処理の開発 | データ処理の開発 | 変更なし |
データの取り込みと変換を行う | データの取り込みと変換を行う | Minor |
バッチ処理ソリューションを開発する | バッチ処理ソリューションを開発する | 変更なし |
ストリーム処理ソリューションを開発する | ストリーム処理ソリューションを開発する | 変更なし |
バッチとパイプラインを管理する | バッチとパイプラインを管理する | 変更なし |
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 | データ ストレージとデータ処理のセキュリティ保護、監視、最適化 | 変更なし |
データ セキュリティを実装する | データ セキュリティを実装する | 変更なし |
データ ストレージとデータ処理を監視する | データ ストレージとデータ処理を監視する | 変更なし |
データ ストレージとデータ処理の最適化とトラブルシューティングを行う | データ ストレージとデータ処理の最適化とトラブルシューティングを行う | 変更なし |
2023 年 11 月 2 日より前に評価されるスキル
視聴者プロフィール
この試験の受験者には、さまざまな構造化、非構造化、ストリーミング データ システムのデータを、分析ソリューションの構築に適したスキーマに統合、変換、一元化するための専門知識が必要です。
Azure データ エンジニアは、利害関係者が探索を通じてデータを理解するのを支援することに加え、セキュリティで保護され準拠しているデータ処理パイプラインを、さまざまなツールや手法を使用して、構築および維持します。 このようなプロフェッショナルは、さまざまな Azure データ サービスとフレームワークを使用して、クリーンで拡張された分析用データセットを格納および生成します。 このデータ ストアは、ビジネス要件に基づいて、最新のデータ ウェアハウス (MDW)、ビッグ データ、レイクハウス アーキテクチャなどのさまざまなアーキテクチャ パターンで設計できます。
また、Azure データ エンジニアは、一連の特定のビジネス要件と制約の下で、高パフォーマンスで効率的な、整然とした信頼性の高いデータ パイプラインとデータ ストアの操作化を約束するための取り組みも行います。 これらの専門家は、運用とデータ品質に関する問題の特定とトラブルシューティングを行うのに役立ちます。 また、データ パイプラインに合わせて、データ プラットフォームの設計、実装、監視、最適化も行います。
この試験の受験者は、SQL、Python、Scala などのデータ処理言語に関する確かな知識を持っている必要があります。また、並列処理とデータ アーキテクチャ パターンを理解している必要もあります。 データ処理ソリューションを作成するには、Azure Data Factory、Azure Synapse Analytics、Azure Stream Analytics、Azure Event Hubs、Azure Data Lake Storage、Azure Databricks の使用に習熟している必要があります。
スキルの概要
データ ストレージの設計と実装 (15 - 20%)
データ処理の開発 (40 - 45%)
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)
データ ストレージの設計と実装 (15 - 20%)
パーティション戦略を実装する
ファイルのパーティション戦略を実装する
分析ワークロードのパーティション戦略を実装する
ストリーミング ワークロードのパーティション戦略を実装する
Azure Synapse Analytics のパーティション戦略を実装する
どのようなときに Azure Data Lake Storage Gen2 でパーティション分割が必要かを特定する
データ探索レイヤーを設計して実装する
SQL サーバーレスおよび Spark クラスターを活用したコンピューティング ソリューションを使用してクエリを作成および実行する
Azure Synapse Analytics データベース テンプレートを推奨および実装する
新しいまたは更新されたデータ系列を Microsoft Purview にプッシュする
Microsoft Purview データ カタログでメタデータを参照および検索する
データ処理の開発 (40 - 45%)
データの取り込みと変換を行う
増分読み込みを設計して実装する
Apache Spark を使用してデータを変換する
Azure Synapse Analytics で Transact-SQL (T-SQL) を使用してデータを変換する
Azure Synapse Pipelines または Azure Data Factory を使用してデータの取り込みと変換を行う
Azure Stream Analytics を使用してデータを変換する
データをクレンジングする
重複データを処理する
不足データを処理する
到着遅延データを処理する
データを分割する
JSON を細分化する
データのエンコードとデコード
変換のエラー処理を構成する
データの正規化と非正規化を行う
データ調査分析を実行する
バッチ処理ソリューションを開発する
Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics、Azure Data Factory を使用してバッチ処理ソリューションを開発する
PolyBase を使用して SQL プールにデータを読み込む
Azure Synapse Link を実装し、レプリケートされたデータに対してクエリを実行する
データ パイプラインを作成する
リソースのスケール
バッチ サイズを構成する
データ パイプラインのテストを作成する
Jupyter または Python ノートブックをデータ パイプラインに統合する
データをアップサートする
データを以前の状態に戻す
例外処理を構成する
バッチ保持を構成する
デルタ レイクに対して読み取りと書き込みを行う
ストリーム処理ソリューションを開発する
Stream Analytics と Azure Event Hubs を使用してストリーム処理ソリューションを作成する
Spark 構造化ストリーミングを使用してデータを処理する
ウィンドウ集計を作成する
スキーマ ドリフトを処理する
時系列データを処理する
パーティション間でデータを処理する
1 つのパーティション内で処理を行う
処理中のチェックポイントとウォーターマークを構成する
リソースのスケール
データ パイプラインのテストを作成する
分析またはトランザクション目的でパイプラインを最適化する
割り込みの処理
例外処理を構成する
データをアップサートする
アーカイブされたストリーム データを再生する
バッチとパイプラインを管理する
バッチをトリガーする
失敗したバッチ読み込みを処理する
バッチ読み込みを検証する
Azure Data Factory または Azure Synapse Pipelines でデータ パイプラインを管理する
Data Factory または Azure Synapse Pipelines でデータ パイプラインをスケジュールする
パイプライン成果物のバージョン管理を実装する
パイプラインで Spark ジョブを管理する
データ ストレージとデータ処理のセキュリティ保護、監視、最適化 (30 - 35%)
データ セキュリティを実装する
データ マスキングを実装する
保存時および稼働時のデータの暗号化
行レベルと列レベルのセキュリティを実装する
Azure ロールベースのアクセス制御 (RBAC) を実装する
POSIX に似たアクセス制御リスト (ACL) を Data Lake Storage Gen2 用に実装する
データ保持ポリシーを実装する
セキュリティで保護されたエンドポイント (プライベートとパブリック) を実装する
Azure Databricks にリソース トークンを実装する
機密情報を含む DataFrame を読み込む
暗号化されたデータをテーブルまたは Parquet ファイルに書き込む
機密情報を管理する
データ ストレージとデータ処理を監視する
Azure Monitor で使用されるログ記録を実装する
監視サービスを構成する
ストリーム処理を監視する
データ移動のパフォーマンスを測定する
システム全体のデータに関する統計を監視および更新する
データ パイプラインのパフォーマンスを監視する
クエリのパフォーマンスを測定する
パイプライン テストのスケジュール設定と監視を行う
Azure Monitor のメトリックとログを解釈する
パイプライン アラート戦略を実装する
データ ストレージとデータ処理の最適化とトラブルシューティングを行う
小さいファイルを圧縮する
データのスキューを処理する
データのスピルを処理する
リソース管理を最適化する
インデクサーを使用してクエリを調整する
キャッシュを使用してクエリを調整する
失敗した Spark ジョブのトラブルシューティングを行う
外部サービスで実行されたアクティビティを含む、失敗したパイプライン実行のトラブルシューティングを行う