Реализация решения аналитики данных с помощью Azure Databricks

Схема обучения
6 Модули

Краткий обзор

Уровень

Промежуточный
Мастерство

 
Продукт

Azure Databricks
Роль

Аналитик данных
Тема

аналитика данных

К концу этого учебного пути вы приобретёте прочные навыки от среднего до продвинутого уровня в работе с Databricks и Spark на Azure. Вы можете получать, преобразовывать и анализировать крупномасштабные наборы данных с помощью Кадров данных Spark, Spark SQL и PySpark, что дает уверенность в работе с распределенной обработкой данных. В Databricks вы знаете, как перемещаться по рабочей области, управлять кластерами и создавать и поддерживать таблицы Delta.

Кроме того, вы сможете создавать и запускать конвейеры ETL, оптимизировать таблицы Delta, управлять изменениями схемы и применять правила качества данных. Кроме того, вы узнаете, как управлять рабочими нагрузками с помощью заданий и конвейеров Lakeflow, что позволяет перейти от изучения к автоматизированным рабочим процессам. Наконец, вы знакомы с функциями управления и безопасности, включая каталог Unity, интеграцию Purview и управление доступом, подготавливая вас к эффективной работе в рабочих средах данных.

Необходимые условия

Прежде чем начать этот путь обучения, вы уже должны быть комфортно с основами Python и SQL. Это включает в себя возможность писать простые скрипты Python и работать с общими структурами данных, а также создавать sql-запросы для фильтрации, соединения и агрегирования данных. Базовое понимание общих форматов файлов, таких как CSV, JSON или Parquet, также поможет при работе с наборами данных.

Кроме того, важно знакомство с порталом Azure и основными службами, такими как служба хранилища Azure, а также общая осведомленность о понятиях данных, таких как пакетная обработка и потоковая обработка и структурированные и неструктурированные данные. Хотя это не обязательно, предшествующий опыт работы с такими фреймворками больших данных, как Spark, и с ноутбуками Jupyter может сделать переход на Databricks более плавным.

Модули в этой схеме обучения

Знакомство с Azure Databricks

Azure Databricks — это облачная служба, которая предоставляет масштабируемую платформу для аналитики данных с помощью Apache Spark.

Анализ данных с помощью Azure Databricks

Узнайте, как выполнять анализ данных с помощью Azure Databricks. Изучите различные методы приема данных и как интегрировать данные из источников, таких как Azure Data Lake и База данных SQL Azure. В этом модуле вы можете использовать записные книжки для совместной работы для анализа данных (EDA), чтобы визуализировать, манипулировать и анализировать данные для выявления шаблонов, аномалий и корреляций.

Использование Apache Spark в Azure Databricks

Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.

Управление данными с помощью Delta Lake

Delta Lake — это решение для управления данными в Azure Databricks, предоставляющее функции, включая транзакции ACID, применение схем и перемещение по времени, обеспечивая согласованность данных, целостность и возможности управления версиями.

Сборка декларативных конвейеров Lakeflow

Создание декларативных конвейеров Lakeflow позволяет выполнять обработку данных в реальном времени, масштабируемую и надежную обработку данных с помощью расширенных функций Delta Lake в Azure Databricks

Развертывание рабочих нагрузок с помощью заданий Lakeflow

Развертывание рабочих нагрузок с помощью заданий Lakeflow включает оркестрацию и автоматизацию сложных конвейеров обработки данных, рабочих процессов машинного обучения и задач аналитики. В этом модуле вы узнаете, как развертывать рабочие нагрузки с помощью заданий Databricks Lakeflow.

Начать