Учебное пособие для экзамена DP-203: Data Engineering on Microsoft Azure

Цель этого документа

Благодаря этому пособию вы узнаете, чего ожидать на экзамене, а также изучите темы, которые могут встретиться в вопросах, и ссылки на соответствующие ресурсы. Информация и материалы в этом документе должны помочь вам сосредоточиться на учебе при подготовке к экзамену.

Полезные ссылки Description
Обзор навыков, измеряемых с 24 августа 2023 г. В этом списке перечислены навыки, которые оцениваются ПОСЛЕ наступления указанной даты. Изучите его, если планируете сдавать экзамен после этой даты.
Просмотр навыков, измеряемых до 24 августа 2023 г. Изучите этот список навыков, если планируете сдавать экзамен до наступления указанной даты.
Журнал изменений Если вы хотите ознакомиться с изменениями, которые вступят в силу в указанную дату, можно непосредственно открыть журнал изменений.
Получение сертификации Некоторые сертификации требуют сдачи только одного экзамена, а другие — нескольких.
Продление сертификации Срок действия сертификаций Майкрософт для специалистов, специализаций и экспертов истекает через год. Вы можете продлить их, пройдя бесплатную аттестацию в Интернете на портале Microsoft Learn.
Ваш профиль Microsoft Learn Подключение профиле сертификации в Microsoft Learn позволяет планировать и обновлять экзамены, а также предоставлять общий доступ к сертификатам и печатать их.
Отчеты о оценке и оценке экзаменов Для прохождения экзамена требуется получить оценку не меньше 700.
Песочница экзамена Вы можете изучить среду экзамена, открыв песочницу экзамена.
Запрос проживания Если вы используете вспомогательные устройства, вам требуется дополнительное время или вам необходимо изменить процесс сдачи любой части экзамена, вы можете запросить размещение.
Ознакомьтесь с бесплатной оценкой практики Проверьте свои навыки с помощью практических вопросов, которые помогут вам подготовиться к экзамену.

Обновления в экзамене

Наши экзамены периодически обновляются, чтобы отразить навыки, необходимые для выполнения роли. Здесь описываются обе версии целей по оцениваемым навыкам в зависимости от даты сдачи экзамена.

Версия экзамена на английском языке всегда обновляется в первую очередь. Некоторые экзамены переведены на другие языки, и их обновление может занять приблизительно восемь недель после обновления англоязычной версии. Хотя корпорация Майкрософт предпринимает все усилия по обновлению локализованных версий, как отмечалось, может возникнуть время, когда локализованные версии экзамена не обновляются в этом расписании. Другие доступные языки перечислены в разделе Расписание экзамена на веб-странице Сведения об экзамене. Если экзамен недоступен на необходимом языке, вы можете запросить дополнительные 30 минут на его прохождение.

Примечание.

Пункты под каждым измеряемым навыком предназначены для того, чтобы показать, как мы оцениваем навык. В экзамены также могут быть рассмотрены связанные темы.

Примечание.

Большинство вопросов охватывают общедоступные функции (GA). Экзамен может содержать вопросы о функциях предварительной версии, если эти функции часто используются.

Навыки, измеряемые по состоянию на 24 августа 2023 г.

Профиль аудитории

Кандидаты на этот экзамен должны обладать знаниями по интеграции, преобразованию и консолидации данных из различных систем структурированных, неструктурированных и потоковых данных в схему, подходящую для создания решений для аналитики.

Инженеры данных Azure помогают заинтересованным лицам анализировать данные путем исследования. Также они создают и поддерживают безопасные и соответствующие требованиям конвейеры обработки данных с использованием различных инструментов и техник. Эти специалисты используют различные Azure data services и платформы для хранения и создания очищенных и дополнительных наборов данных для анализа. Это хранилище данных может быть разработано с использованием различных шаблонов архитектуры в зависимости от бизнес-требований, включая современное хранилище данных (MDW), большие данные или архитектуру "озеро данных".

Инженеры данных Azure также помогают обеспечивать хорошую работу, эффективность, структурированность и надежность конвейеров и хранилищ данных и их соответствие набору требований и ограничений бизнеса при практическом использовании. Эти технические специалисты помогают выявлять и устранять проблемы с операциями и качеством данных. Они также разрабатывают, реализовывают, контролируют и оптимизируют платформы данных для соответствия требованиям конвейеров данных.

Кандидаты на этот экзамен должны хорошо знать языки обработки данных, такие как SQL, Python или Scala, и понимать параллельную обработку и шаблоны архитектуры данных. Они должны иметь опыт использования Фабрики данных Azure, Azure Synapse Analytics, Azure Stream Analytics, Центра событий Azure, Azure Data Lake Storage и Azure Databricks для создания решений для обработки данных.

  • Проектирование и реализация хранения данных (15–20 %)

  • Развитие обработки данных (40–45 %)

  • Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)

Проектирование и реализация хранения данных (15–20 %)

Реализация стратегии секционирования

  • Реализация стратегии секционирования для файлов

  • Реализация стратегии секционирования для аналитических рабочих нагрузок

  • Реализация стратегии секционирования для потоковых рабочих нагрузок

  • Реализация стратегии секционирования для Azure Synapse Analytics

  • Определение необходимости секционирования в Azure Data Lake Storage 2-го поколения

Проектирование и реализация уровня изучения данных

  • Создание и выполнение запросов с помощью решения для вычислений, которое использует бессерверный SQL и кластер Spark

  • Рекомендации и реализация шаблонов баз данных Azure Synapse Analytics

  • Отправка нового или обновленного происхождения данных в Microsoft Purview

  • Просмотр и поиск метаданных в Каталоге данных Microsoft Purview

Развитие обработки данных (40–45 %)

Прием и преобразование данных

  • Проектирование и реализация добавочных нагрузок

  • Преобразование данных с помощью Apache Spark

  • Преобразование данных с помощью Transact-SQL (T-SQL) в Azure Synapse Analytics

  • Прием и преобразование данных с помощью конвейеров Azure Synapse или Фабрики данных Azure

  • Преобразование данных с помощью Azure Stream Analytics

  • Удаление данных

  • Обработка повторяющихся данных

  • Обработка отсутствующих данных

  • Обработка последних данных

  • Разделение данных

  • Дробление JSON

  • Кодирование и декодирование данных

  • Настройка обработки ошибок для преобразования

  • Нормализация и денормализация данных

  • Выполнение исследовательского анализа

Разработка решения для пакетной обработки

  • Разработка решений для пакетной обработки с помощью Azure Data Lake Storage, Azure Databricks, Azure Synapse Analytics и Фабрики данных Azure

  • Использование PolyBase для загрузки данных в пул SQL

  • Реализация Azure Synapse Link и запрос на реплицированные данные

  • Создание конвейеров данных

  • Масштабирование ресурсов

  • Настройка размера пакета

  • Создание тестов для конвейеров данных

  • Интеграция записных книжек Jupyter или Python в конвейер данных

  • Операция upsert с данными

  • Возврат данных к предыдущему состоянию

  • Настройка обработки исключений

  • Настройка хранения пакета

  • Чтение и запись с помощью дельта-озера

Разработка решения потоковой обработки

  • Создание решения потоковой обработки с помощью Stream Analytics и Центров событий Azure

  • Обработка данных с помощью структурированной потоковой передачи Spark

  • Создание оконных статистических выражений

  • Обработка смещения схемы

  • Обработка данных временных рядов

  • Обработка данных по секциями

  • Обработка в пределах одной секции

  • Настройка контрольных точек и водяных знаков во время обработки

  • Масштабирование ресурсов

  • Создание тестов для конвейеров данных

  • Оптимизация конвейеров для аналитических или транзакционных целей

  • Обработка прерываний

  • Настройка обработки исключений

  • Операция upsert с данными

  • Воспроизведение архивных данных потока

Управление пакетами и конвейерами

  • Активация пакетов

  • Обработка неудачных пакетных загрузок

  • Проверка пакетных загрузок

  • Управление конвейерами данных в Фабрике данных Azure или на конвейерах Azure Synapse

  • Управление конвейерами данных в Фабрике данных или на конвейерах Azure Synapse

  • Реализация управления версиями для артефактов конвейера

  • Управление заданиями Spark в конвейере

Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)

Реализация безопасности данных

  • Реализация маскирования данных

  • Шифрование данных во время хранения и передачи

  • Реализация безопасности на уровне строк и столбцов

  • Реализация управления доступом на основе ролей Azure (RBAC)

  • Реализация списков управления доступом (ACL) в формате POSIX для Data Lake Storage 2-го поколения

  • Реализация политики хранения данных

  • Реализация безопасных конечных точек (частных и общедоступных)

  • Реализация маркеров ресурсов в Azure Databricks

  • Загрузка кадра данных с конфиденциальной информацией

  • Запись зашифрованных данных в таблицы или файлы Parquet

  • Управление конфиденциальной информацией

Отслеживание хранения и обработки данных

  • Реализация ведения журнала, используемого Azure Monitor

  • Настройка службы мониторинга

  • Отслеживание обработки потока данных

  • Измерение производительности перемещения данных

  • Отслеживание и обновление статистики о данных в системе

  • Отслеживание производительности конвейера данных

  • Измерение производительности запросов

  • Планирование и отслеживание тестов конвейера

  • Интерпретация метрик и журналов Azure Monitor

  • Реализация стратегии предупреждений конвейера

Оптимизация и устранение неполадок в хранении и обработке данных

  • Сжатие небольших файлов

  • Обработка отклонений в данных

  • Обработка утечек данных

  • Оптимизация управления ресурсами

  • Настройка запросов с помощью индексаторов

  • Настройка запросов с помощью кэша

  • Устранение неполадок при сбое задания Spark

  • Устранение неполадок при сбое выполнения конвейера, включая действия, выполняемые во внешних службах

Учебные ресурсы

Перед сдачей экзамена рекомендуется пройти обучение и получить практический опыт. Мы предлагаем варианты для самостоятельного обучения и обучения в классе, а также ссылки на документацию, сайты сообщества и видео.

Учебные ресурсы Ссылки на обучение и документацию
Получение обучения Выберите схему или модуль для обучения в произвольном темпе или пройдите курс под руководством инструктора
Ищите документацию Хранилище озера данных Azure
Azure Synapse Analytics
Azure Databricks
Фабрика данных
Azure Stream Analytics
Центры событий
Azure Monitor
Задать вопрос Microsoft Q&A | Документация Майкрософт
Получите поддержку сообщества Аналитика в Azure | TechCommunity
Azure Synapse Analytics | TechCommunity
Подписаться на Microsoft Learn Microsoft Learn — Microsoft Tech Community
Найти видео Зона готовности к экзаменам
Представленные данные
Просмотрите другие выпуски Microsoft Learn

Журнал изменений

Структура таблицы: группы тем (также называемые функциональными группами) выделены полужирным шрифтом, после чего указаны цели для каждой группы. В таблице сравниваются две версии оцениваемых на экзамене навыков, а в третьем столбце описываются масштабы изменений.

Область навыка до 24 августа 2023 г. Область навыка по состоянию на 24 августа 2023 г. Изменение
Профиль аудитории Без изменений
Проектирование и реализация хранения данных Проектирование и реализация хранения данных Без изменений
Реализация стратегии секционирования Реализация стратегии секционирования Без изменений
Проектирование и реализация уровня изучения данных Проектирование и реализация уровня изучения данных Без изменений
Развитие обработки данных Развитие обработки данных Без изменений
Прием и преобразование данных Прием и преобразование данных Незначительный
Разработка решения для пакетной обработки Разработка решения для пакетной обработки Без изменений
Разработка решения потоковой обработки Разработка решения потоковой обработки Без изменений
Управление пакетами и конвейерами Управление пакетами и конвейерами Без изменений
Защита, отслеживание и оптимизация хранения и обработки данных Защита, отслеживание и оптимизация хранения и обработки данных Без изменений
Реализация безопасности данных Реализация безопасности данных Без изменений
Отслеживание хранения и обработки данных Отслеживание хранения и обработки данных Без изменений
Оптимизация и устранение неполадок в хранении и обработке данных Оптимизация и устранение неполадок в хранении и обработке данных Без изменений

Навыки, измеряемые до 24 августа 2023 г.

Профиль аудитории

Кандидаты на этот экзамен должны обладать знаниями по интеграции, преобразованию и консолидации данных из различных систем структурированных, неструктурированных и потоковых данных в схему, подходящую для создания решений для аналитики.

Инженеры данных Azure помогают заинтересованным лицам анализировать данные путем исследования. Также они создают и поддерживают безопасные и соответствующие требованиям конвейеры обработки данных с использованием различных инструментов и техник. Эти специалисты используют различные Azure data services и платформы для хранения и создания очищенных и дополнительных наборов данных для анализа. Это хранилище данных может быть разработано с использованием различных шаблонов архитектуры в зависимости от бизнес-требований, включая современное хранилище данных (MDW), большие данные или архитектуру "озеро данных".

Инженеры данных Azure также помогают обеспечивать хорошую работу, эффективность, структурированность и надежность конвейеров и хранилищ данных и их соответствие набору требований и ограничений бизнеса при практическом использовании. Эти технические специалисты помогают выявлять и устранять проблемы с операциями и качеством данных. Они также разрабатывают, реализовывают, контролируют и оптимизируют платформы данных для соответствия требованиям конвейеров данных.

Кандидаты на этот экзамен должны хорошо знать языки обработки данных, такие как SQL, Python или Scala, и понимать параллельную обработку и шаблоны архитектуры данных. Они должны иметь опыт использования Фабрики данных Azure, Azure Synapse Analytics, Azure Stream Analytics, Центра событий Azure, Azure Data Lake Storage и Azure Databricks для создания решений для обработки данных.

  • Проектирование и реализация хранения данных (15–20 %)

  • Развитие обработки данных (40–45 %)

  • Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)

Проектирование и реализация хранения данных (15–20 %)

Реализация стратегии секционирования

  • Реализация стратегии секционирования для файлов

  • Реализация стратегии секционирования для аналитических рабочих нагрузок

  • Реализация стратегии секционирования для потоковых рабочих нагрузок

  • Реализация стратегии секционирования для Azure Synapse Analytics

  • Определение необходимости секционирования в Azure Data Lake Storage 2-го поколения

Проектирование и реализация уровня изучения данных

  • Создание и выполнение запросов с помощью решения для вычислений, которое использует бессерверный SQL и кластер Spark

  • Рекомендации и реализация шаблонов баз данных Azure Synapse Analytics

  • Отправка нового или обновленного происхождения данных в Microsoft Purview

  • Просмотр и поиск метаданных в Каталоге данных Microsoft Purview

Развитие обработки данных (40–45 %)

Прием и преобразование данных

  • Проектирование и реализация добавочных нагрузок

  • Преобразование данных с помощью Apache Spark

  • Преобразование данных с помощью Transact-SQL (T-SQL)

  • Прием и преобразование данных с помощью конвейеров Azure Synapse или Фабрики данных Azure

  • Преобразование данных с помощью Azure Stream Analytics

  • Удаление данных

  • Обработка повторяющихся данных

  • Обработка отсутствующих данных

  • Обработка последних данных

  • Разделение данных

  • Дробление JSON

  • Кодирование и декодирование данных

  • Настройка обработки ошибок для преобразования

  • Нормализация и денормализация данных

  • Выполнение исследовательского анализа

Разработка решения для пакетной обработки

  • Разработка решений для пакетной обработки с помощью Azure Data Lake Storage, Azure Databricks, Azure Synapse Analytics и Фабрики данных Azure

  • Использование PolyBase для загрузки данных в пул SQL

  • Реализация Azure Synapse Link и запрос на реплицированные данные

  • Создание конвейеров данных

  • Масштабирование ресурсов

  • Настройка размера пакета

  • Создание тестов для конвейеров данных

  • Интеграция записных книжек Jupyter или Python в конвейер данных

  • Операция upsert с данными

  • Возврат данных к предыдущему состоянию

  • Настройка обработки исключений

  • Настройка хранения пакета

  • Чтение и запись с помощью дельта-озера

Разработка решения потоковой обработки

  • Создание решения потоковой обработки с помощью Stream Analytics и Центров событий Azure

  • Обработка данных с помощью структурированной потоковой передачи Spark

  • Создание оконных статистических выражений

  • Обработка смещения схемы

  • Обработка данных временных рядов

  • Обработка данных по секциями

  • Обработка в пределах одной секции

  • Настройка контрольных точек и водяных знаков во время обработки

  • Масштабирование ресурсов

  • Создание тестов для конвейеров данных

  • Оптимизация конвейеров для аналитических или транзакционных целей

  • Обработка прерываний

  • Настройка обработки исключений

  • Операция upsert с данными

  • Воспроизведение архивных данных потока

Управление пакетами и конвейерами

  • Активация пакетов

  • Обработка неудачных пакетных загрузок

  • Проверка пакетных загрузок

  • Управление конвейерами данных в Фабрике данных Azure или на конвейерах Azure Synapse

  • Управление конвейерами данных в Фабрике данных или на конвейерах Azure Synapse

  • Реализация управления версиями для артефактов конвейера

  • Управление заданиями Spark в конвейере

Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)

Реализация безопасности данных

  • Реализация маскирования данных

  • Шифрование данных во время хранения и передачи

  • Реализация безопасности на уровне строк и столбцов

  • Реализация управления доступом на основе ролей Azure (RBAC)

  • Реализация списков управления доступом (ACL) в формате POSIX для Data Lake Storage 2-го поколения

  • Реализация политики хранения данных

  • Реализация безопасных конечных точек (частных и общедоступных)

  • Реализация маркеров ресурсов в Azure Databricks

  • Загрузка кадра данных с конфиденциальной информацией

  • Запись зашифрованных данных в таблицы или файлы Parquet

  • Управление конфиденциальной информацией

Отслеживание хранения и обработки данных

  • Реализация ведения журнала, используемого Azure Monitor

  • Настройка службы мониторинга

  • Отслеживание обработки потока данных

  • Измерение производительности перемещения данных

  • Отслеживание и обновление статистики о данных в системе

  • Отслеживание производительности конвейера данных

  • Измерение производительности запросов

  • Планирование и отслеживание тестов конвейера

  • Интерпретация метрик и журналов Azure Monitor

  • Реализация стратегии предупреждений конвейера

Оптимизация и устранение неполадок в хранении и обработке данных

  • Сжатие небольших файлов

  • Обработка отклонений в данных

  • Обработка утечек данных

  • Оптимизация управления ресурсами

  • Настройка запросов с помощью индексаторов

  • Настройка запросов с помощью кэша

  • Устранение неполадок при сбое задания Spark

  • Устранение неполадок при сбое выполнения конвейера, включая действия, выполняемые во внешних службах