Реализация решения аналитики данных с помощью Azure Databricks
Краткий обзор
-
Уровень
-
Мастерство
-
Продукт
-
Роль
-
Тема
К концу этого учебного пути вы приобретёте прочные навыки от среднего до продвинутого уровня в работе с Databricks и Spark на Azure. Вы можете получать, преобразовывать и анализировать крупномасштабные наборы данных с помощью Кадров данных Spark, Spark SQL и PySpark, что дает уверенность в работе с распределенной обработкой данных. В Databricks вы знаете, как перемещаться по рабочей области, управлять кластерами и создавать и поддерживать таблицы Delta.
Кроме того, вы сможете создавать и запускать конвейеры ETL, оптимизировать таблицы Delta, управлять изменениями схемы и применять правила качества данных. Кроме того, вы узнаете, как управлять рабочими нагрузками с помощью заданий и конвейеров Lakeflow, что позволяет перейти от изучения к автоматизированным рабочим процессам. Наконец, вы знакомы с функциями управления и безопасности, включая каталог Unity, интеграцию Purview и управление доступом, подготавливая вас к эффективной работе в рабочих средах данных.
Необходимые условия
Прежде чем начать этот путь обучения, вы уже должны быть комфортно с основами Python и SQL. Это включает в себя возможность писать простые скрипты Python и работать с общими структурами данных, а также создавать sql-запросы для фильтрации, соединения и агрегирования данных. Базовое понимание общих форматов файлов, таких как CSV, JSON или Parquet, также поможет при работе с наборами данных.
Кроме того, важно знакомство с порталом Azure и основными службами, такими как служба хранилища Azure, а также общая осведомленность о понятиях данных, таких как пакетная обработка и потоковая обработка и структурированные и неструктурированные данные. Хотя это не обязательно, предшествующий опыт работы с такими фреймворками больших данных, как Spark, и с ноутбуками Jupyter может сделать переход на Databricks более плавным.
Код достижения
Хотите запросить код достижения?
Модули в этой схеме обучения
Azure Databricks — это облачная служба, которая предоставляет масштабируемую платформу для аналитики данных с помощью Apache Spark.
Узнайте, как выполнять анализ данных с помощью Azure Databricks. Изучите различные методы приема данных и как интегрировать данные из источников, таких как Azure Data Lake и База данных SQL Azure. В этом модуле вы можете использовать записные книжки для совместной работы для анализа данных (EDA), чтобы визуализировать, манипулировать и анализировать данные для выявления шаблонов, аномалий и корреляций.
Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.
Delta Lake — это решение для управления данными в Azure Databricks, предоставляющее функции, включая транзакции ACID, применение схем и перемещение по времени, обеспечивая согласованность данных, целостность и возможности управления версиями.
Создание декларативных конвейеров Lakeflow позволяет выполнять обработку данных в реальном времени, масштабируемую и надежную обработку данных с помощью расширенных функций Delta Lake в Azure Databricks
Развертывание рабочих нагрузок с помощью заданий Lakeflow включает оркестрацию и автоматизацию сложных конвейеров обработки данных, рабочих процессов машинного обучения и задач аналитики. В этом модуле вы узнаете, как развертывать рабочие нагрузки с помощью заданий Databricks Lakeflow.