Учебное пособие для экзамена DP-203: Data Engineering on Microsoft Azure
Цель этого документа
Благодаря этому пособию вы узнаете, чего ожидать на экзамене, а также изучите темы, которые могут встретиться в вопросах, и ссылки на соответствующие ресурсы. Информация и материалы в этом документе должны помочь вам сосредоточиться на учебе при подготовке к экзамену.
Полезные ссылки | Description |
---|---|
Обзор навыков, измеряемых с 24 августа 2023 г. | В этом списке перечислены навыки, которые оцениваются ПОСЛЕ наступления указанной даты. Изучите его, если планируете сдавать экзамен после этой даты. |
Просмотр навыков, измеряемых до 24 августа 2023 г. | Изучите этот список навыков, если планируете сдавать экзамен до наступления указанной даты. |
Журнал изменений | Если вы хотите ознакомиться с изменениями, которые вступят в силу в указанную дату, можно непосредственно открыть журнал изменений. |
Получение сертификации | Некоторые сертификации требуют сдачи только одного экзамена, а другие — нескольких. |
Продление сертификации | Срок действия сертификаций Майкрософт для специалистов, специализаций и экспертов истекает через год. Вы можете продлить их, пройдя бесплатную аттестацию в Интернете на портале Microsoft Learn. |
Ваш профиль Microsoft Learn | Подключение профиле сертификации в Microsoft Learn позволяет планировать и обновлять экзамены, а также предоставлять общий доступ к сертификатам и печатать их. |
Отчеты о оценке и оценке экзаменов | Для прохождения экзамена требуется получить оценку не меньше 700. |
Песочница экзамена | Вы можете изучить среду экзамена, открыв песочницу экзамена. |
Запрос проживания | Если вы используете вспомогательные устройства, вам требуется дополнительное время или вам необходимо изменить процесс сдачи любой части экзамена, вы можете запросить размещение. |
Ознакомьтесь с бесплатной оценкой практики | Проверьте свои навыки с помощью практических вопросов, которые помогут вам подготовиться к экзамену. |
Обновления в экзамене
Наши экзамены периодически обновляются, чтобы отразить навыки, необходимые для выполнения роли. Здесь описываются обе версии целей по оцениваемым навыкам в зависимости от даты сдачи экзамена.
Версия экзамена на английском языке всегда обновляется в первую очередь. Некоторые экзамены переведены на другие языки, и их обновление может занять приблизительно восемь недель после обновления англоязычной версии. Хотя корпорация Майкрософт предпринимает все усилия по обновлению локализованных версий, как отмечалось, может возникнуть время, когда локализованные версии экзамена не обновляются в этом расписании. Другие доступные языки перечислены в разделе Расписание экзамена на веб-странице Сведения об экзамене. Если экзамен недоступен на необходимом языке, вы можете запросить дополнительные 30 минут на его прохождение.
Примечание.
Пункты под каждым измеряемым навыком предназначены для того, чтобы показать, как мы оцениваем навык. В экзамены также могут быть рассмотрены связанные темы.
Примечание.
Большинство вопросов охватывают общедоступные функции (GA). Экзамен может содержать вопросы о функциях предварительной версии, если эти функции часто используются.
Навыки, измеряемые по состоянию на 24 августа 2023 г.
Профиль аудитории
Кандидаты на этот экзамен должны обладать знаниями по интеграции, преобразованию и консолидации данных из различных систем структурированных, неструктурированных и потоковых данных в схему, подходящую для создания решений для аналитики.
Инженеры данных Azure помогают заинтересованным лицам анализировать данные путем исследования. Также они создают и поддерживают безопасные и соответствующие требованиям конвейеры обработки данных с использованием различных инструментов и техник. Эти специалисты используют различные Azure data services и платформы для хранения и создания очищенных и дополнительных наборов данных для анализа. Это хранилище данных может быть разработано с использованием различных шаблонов архитектуры в зависимости от бизнес-требований, включая современное хранилище данных (MDW), большие данные или архитектуру "озеро данных".
Инженеры данных Azure также помогают обеспечивать хорошую работу, эффективность, структурированность и надежность конвейеров и хранилищ данных и их соответствие набору требований и ограничений бизнеса при практическом использовании. Эти технические специалисты помогают выявлять и устранять проблемы с операциями и качеством данных. Они также разрабатывают, реализовывают, контролируют и оптимизируют платформы данных для соответствия требованиям конвейеров данных.
Кандидаты на этот экзамен должны хорошо знать языки обработки данных, такие как SQL, Python или Scala, и понимать параллельную обработку и шаблоны архитектуры данных. Они должны иметь опыт использования Фабрики данных Azure, Azure Synapse Analytics, Azure Stream Analytics, Центра событий Azure, Azure Data Lake Storage и Azure Databricks для создания решений для обработки данных.
Проектирование и реализация хранения данных (15–20 %)
Развитие обработки данных (40–45 %)
Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)
Проектирование и реализация хранения данных (15–20 %)
Реализация стратегии секционирования
Реализация стратегии секционирования для файлов
Реализация стратегии секционирования для аналитических рабочих нагрузок
Реализация стратегии секционирования для потоковых рабочих нагрузок
Реализация стратегии секционирования для Azure Synapse Analytics
Определение необходимости секционирования в Azure Data Lake Storage 2-го поколения
Проектирование и реализация уровня изучения данных
Создание и выполнение запросов с помощью решения для вычислений, которое использует бессерверный SQL и кластер Spark
Рекомендации и реализация шаблонов баз данных Azure Synapse Analytics
Отправка нового или обновленного происхождения данных в Microsoft Purview
Просмотр и поиск метаданных в Каталоге данных Microsoft Purview
Развитие обработки данных (40–45 %)
Прием и преобразование данных
Проектирование и реализация добавочных нагрузок
Преобразование данных с помощью Apache Spark
Преобразование данных с помощью Transact-SQL (T-SQL) в Azure Synapse Analytics
Прием и преобразование данных с помощью конвейеров Azure Synapse или Фабрики данных Azure
Преобразование данных с помощью Azure Stream Analytics
Удаление данных
Обработка повторяющихся данных
Обработка отсутствующих данных
Обработка последних данных
Разделение данных
Дробление JSON
Кодирование и декодирование данных
Настройка обработки ошибок для преобразования
Нормализация и денормализация данных
Выполнение исследовательского анализа
Разработка решения для пакетной обработки
Разработка решений для пакетной обработки с помощью Azure Data Lake Storage, Azure Databricks, Azure Synapse Analytics и Фабрики данных Azure
Использование PolyBase для загрузки данных в пул SQL
Реализация Azure Synapse Link и запрос на реплицированные данные
Создание конвейеров данных
Масштабирование ресурсов
Настройка размера пакета
Создание тестов для конвейеров данных
Интеграция записных книжек Jupyter или Python в конвейер данных
Операция upsert с данными
Возврат данных к предыдущему состоянию
Настройка обработки исключений
Настройка хранения пакета
Чтение и запись с помощью дельта-озера
Разработка решения потоковой обработки
Создание решения потоковой обработки с помощью Stream Analytics и Центров событий Azure
Обработка данных с помощью структурированной потоковой передачи Spark
Создание оконных статистических выражений
Обработка смещения схемы
Обработка данных временных рядов
Обработка данных по секциями
Обработка в пределах одной секции
Настройка контрольных точек и водяных знаков во время обработки
Масштабирование ресурсов
Создание тестов для конвейеров данных
Оптимизация конвейеров для аналитических или транзакционных целей
Обработка прерываний
Настройка обработки исключений
Операция upsert с данными
Воспроизведение архивных данных потока
Управление пакетами и конвейерами
Активация пакетов
Обработка неудачных пакетных загрузок
Проверка пакетных загрузок
Управление конвейерами данных в Фабрике данных Azure или на конвейерах Azure Synapse
Управление конвейерами данных в Фабрике данных или на конвейерах Azure Synapse
Реализация управления версиями для артефактов конвейера
Управление заданиями Spark в конвейере
Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)
Реализация безопасности данных
Реализация маскирования данных
Шифрование данных во время хранения и передачи
Реализация безопасности на уровне строк и столбцов
Реализация управления доступом на основе ролей Azure (RBAC)
Реализация списков управления доступом (ACL) в формате POSIX для Data Lake Storage 2-го поколения
Реализация политики хранения данных
Реализация безопасных конечных точек (частных и общедоступных)
Реализация маркеров ресурсов в Azure Databricks
Загрузка кадра данных с конфиденциальной информацией
Запись зашифрованных данных в таблицы или файлы Parquet
Управление конфиденциальной информацией
Отслеживание хранения и обработки данных
Реализация ведения журнала, используемого Azure Monitor
Настройка службы мониторинга
Отслеживание обработки потока данных
Измерение производительности перемещения данных
Отслеживание и обновление статистики о данных в системе
Отслеживание производительности конвейера данных
Измерение производительности запросов
Планирование и отслеживание тестов конвейера
Интерпретация метрик и журналов Azure Monitor
Реализация стратегии предупреждений конвейера
Оптимизация и устранение неполадок в хранении и обработке данных
Сжатие небольших файлов
Обработка отклонений в данных
Обработка утечек данных
Оптимизация управления ресурсами
Настройка запросов с помощью индексаторов
Настройка запросов с помощью кэша
Устранение неполадок при сбое задания Spark
Устранение неполадок при сбое выполнения конвейера, включая действия, выполняемые во внешних службах
Учебные ресурсы
Перед сдачей экзамена рекомендуется пройти обучение и получить практический опыт. Мы предлагаем варианты для самостоятельного обучения и обучения в классе, а также ссылки на документацию, сайты сообщества и видео.
Учебные ресурсы | Ссылки на обучение и документацию |
---|---|
Получение обучения | Выберите схему или модуль для обучения в произвольном темпе или пройдите курс под руководством инструктора |
Ищите документацию | Хранилище озера данных Azure Azure Synapse Analytics Azure Databricks Фабрика данных Azure Stream Analytics Центры событий Azure Monitor |
Задать вопрос | Microsoft Q&A | Документация Майкрософт |
Получите поддержку сообщества | Аналитика в Azure | TechCommunity Azure Synapse Analytics | TechCommunity |
Подписаться на Microsoft Learn | Microsoft Learn — Microsoft Tech Community |
Найти видео | Зона готовности к экзаменам Представленные данные Просмотрите другие выпуски Microsoft Learn |
Журнал изменений
Структура таблицы: группы тем (также называемые функциональными группами) выделены полужирным шрифтом, после чего указаны цели для каждой группы. В таблице сравниваются две версии оцениваемых на экзамене навыков, а в третьем столбце описываются масштабы изменений.
Область навыка до 24 августа 2023 г. | Область навыка по состоянию на 24 августа 2023 г. | Изменение |
---|---|---|
Профиль аудитории | Без изменений | |
Проектирование и реализация хранения данных | Проектирование и реализация хранения данных | Без изменений |
Реализация стратегии секционирования | Реализация стратегии секционирования | Без изменений |
Проектирование и реализация уровня изучения данных | Проектирование и реализация уровня изучения данных | Без изменений |
Развитие обработки данных | Развитие обработки данных | Без изменений |
Прием и преобразование данных | Прием и преобразование данных | Незначительный |
Разработка решения для пакетной обработки | Разработка решения для пакетной обработки | Без изменений |
Разработка решения потоковой обработки | Разработка решения потоковой обработки | Без изменений |
Управление пакетами и конвейерами | Управление пакетами и конвейерами | Без изменений |
Защита, отслеживание и оптимизация хранения и обработки данных | Защита, отслеживание и оптимизация хранения и обработки данных | Без изменений |
Реализация безопасности данных | Реализация безопасности данных | Без изменений |
Отслеживание хранения и обработки данных | Отслеживание хранения и обработки данных | Без изменений |
Оптимизация и устранение неполадок в хранении и обработке данных | Оптимизация и устранение неполадок в хранении и обработке данных | Без изменений |
Навыки, измеряемые до 24 августа 2023 г.
Профиль аудитории
Кандидаты на этот экзамен должны обладать знаниями по интеграции, преобразованию и консолидации данных из различных систем структурированных, неструктурированных и потоковых данных в схему, подходящую для создания решений для аналитики.
Инженеры данных Azure помогают заинтересованным лицам анализировать данные путем исследования. Также они создают и поддерживают безопасные и соответствующие требованиям конвейеры обработки данных с использованием различных инструментов и техник. Эти специалисты используют различные Azure data services и платформы для хранения и создания очищенных и дополнительных наборов данных для анализа. Это хранилище данных может быть разработано с использованием различных шаблонов архитектуры в зависимости от бизнес-требований, включая современное хранилище данных (MDW), большие данные или архитектуру "озеро данных".
Инженеры данных Azure также помогают обеспечивать хорошую работу, эффективность, структурированность и надежность конвейеров и хранилищ данных и их соответствие набору требований и ограничений бизнеса при практическом использовании. Эти технические специалисты помогают выявлять и устранять проблемы с операциями и качеством данных. Они также разрабатывают, реализовывают, контролируют и оптимизируют платформы данных для соответствия требованиям конвейеров данных.
Кандидаты на этот экзамен должны хорошо знать языки обработки данных, такие как SQL, Python или Scala, и понимать параллельную обработку и шаблоны архитектуры данных. Они должны иметь опыт использования Фабрики данных Azure, Azure Synapse Analytics, Azure Stream Analytics, Центра событий Azure, Azure Data Lake Storage и Azure Databricks для создания решений для обработки данных.
Проектирование и реализация хранения данных (15–20 %)
Развитие обработки данных (40–45 %)
Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)
Проектирование и реализация хранения данных (15–20 %)
Реализация стратегии секционирования
Реализация стратегии секционирования для файлов
Реализация стратегии секционирования для аналитических рабочих нагрузок
Реализация стратегии секционирования для потоковых рабочих нагрузок
Реализация стратегии секционирования для Azure Synapse Analytics
Определение необходимости секционирования в Azure Data Lake Storage 2-го поколения
Проектирование и реализация уровня изучения данных
Создание и выполнение запросов с помощью решения для вычислений, которое использует бессерверный SQL и кластер Spark
Рекомендации и реализация шаблонов баз данных Azure Synapse Analytics
Отправка нового или обновленного происхождения данных в Microsoft Purview
Просмотр и поиск метаданных в Каталоге данных Microsoft Purview
Развитие обработки данных (40–45 %)
Прием и преобразование данных
Проектирование и реализация добавочных нагрузок
Преобразование данных с помощью Apache Spark
Преобразование данных с помощью Transact-SQL (T-SQL)
Прием и преобразование данных с помощью конвейеров Azure Synapse или Фабрики данных Azure
Преобразование данных с помощью Azure Stream Analytics
Удаление данных
Обработка повторяющихся данных
Обработка отсутствующих данных
Обработка последних данных
Разделение данных
Дробление JSON
Кодирование и декодирование данных
Настройка обработки ошибок для преобразования
Нормализация и денормализация данных
Выполнение исследовательского анализа
Разработка решения для пакетной обработки
Разработка решений для пакетной обработки с помощью Azure Data Lake Storage, Azure Databricks, Azure Synapse Analytics и Фабрики данных Azure
Использование PolyBase для загрузки данных в пул SQL
Реализация Azure Synapse Link и запрос на реплицированные данные
Создание конвейеров данных
Масштабирование ресурсов
Настройка размера пакета
Создание тестов для конвейеров данных
Интеграция записных книжек Jupyter или Python в конвейер данных
Операция upsert с данными
Возврат данных к предыдущему состоянию
Настройка обработки исключений
Настройка хранения пакета
Чтение и запись с помощью дельта-озера
Разработка решения потоковой обработки
Создание решения потоковой обработки с помощью Stream Analytics и Центров событий Azure
Обработка данных с помощью структурированной потоковой передачи Spark
Создание оконных статистических выражений
Обработка смещения схемы
Обработка данных временных рядов
Обработка данных по секциями
Обработка в пределах одной секции
Настройка контрольных точек и водяных знаков во время обработки
Масштабирование ресурсов
Создание тестов для конвейеров данных
Оптимизация конвейеров для аналитических или транзакционных целей
Обработка прерываний
Настройка обработки исключений
Операция upsert с данными
Воспроизведение архивных данных потока
Управление пакетами и конвейерами
Активация пакетов
Обработка неудачных пакетных загрузок
Проверка пакетных загрузок
Управление конвейерами данных в Фабрике данных Azure или на конвейерах Azure Synapse
Управление конвейерами данных в Фабрике данных или на конвейерах Azure Synapse
Реализация управления версиями для артефактов конвейера
Управление заданиями Spark в конвейере
Защита, отслеживание и оптимизация хранения и обработки данных (30–35 %)
Реализация безопасности данных
Реализация маскирования данных
Шифрование данных во время хранения и передачи
Реализация безопасности на уровне строк и столбцов
Реализация управления доступом на основе ролей Azure (RBAC)
Реализация списков управления доступом (ACL) в формате POSIX для Data Lake Storage 2-го поколения
Реализация политики хранения данных
Реализация безопасных конечных точек (частных и общедоступных)
Реализация маркеров ресурсов в Azure Databricks
Загрузка кадра данных с конфиденциальной информацией
Запись зашифрованных данных в таблицы или файлы Parquet
Управление конфиденциальной информацией
Отслеживание хранения и обработки данных
Реализация ведения журнала, используемого Azure Monitor
Настройка службы мониторинга
Отслеживание обработки потока данных
Измерение производительности перемещения данных
Отслеживание и обновление статистики о данных в системе
Отслеживание производительности конвейера данных
Измерение производительности запросов
Планирование и отслеживание тестов конвейера
Интерпретация метрик и журналов Azure Monitor
Реализация стратегии предупреждений конвейера
Оптимизация и устранение неполадок в хранении и обработке данных
Сжатие небольших файлов
Обработка отклонений в данных
Обработка утечек данных
Оптимизация управления ресурсами
Настройка запросов с помощью индексаторов
Настройка запросов с помощью кэша
Устранение неполадок при сбое задания Spark
Устранение неполадок при сбое выполнения конвейера, включая действия, выполняемые во внешних службах