使用 Azure Databricks 实现数据分析解决方案

速览

完成此学习路径后,你将在 Azure 上的 Databricks 和 Spark 中具备扎实的中高级技能。 能够使用 Spark 数据帧、Spark SQL 和 PySpark 引入、转换和分析大规模数据集,让你有信心处理分布式数据处理。 在 Databricks 中,了解如何导航工作区、管理群集以及生成和维护 Delta 表。

你还将能够设计和运行 ETL 管道、优化 Delta 表、管理架构更改以及应用数据质量规则。 此外,你将学习如何使用 Lakeflow 作业和管道来编排工作负载,从而帮助你从探索阶段过渡到自动化工作流。 最后,你熟悉治理和安全功能,包括 Unity 目录、Purview 集成和访问管理,准备在生产就绪的数据环境中有效运行。

先决条件

在开始学习路径之前,应该已经熟悉 Python 和 SQL 的基础知识。 这包括能够编写简单的 Python 脚本并处理常见数据结构,以及编写 SQL 查询来筛选、联接和聚合数据。 对常见文件格式(如 CSV、JSON 或 Parquet)的基本了解也有助于处理数据集。

此外,熟悉 Azure 门户和 Azure 存储等核心服务非常重要,并大致了解数据概念,例如批处理处理与流处理,结构化数据与非结构化数据。 虽然不是强制性的,但之前接触 Spark 等大数据框架并体验使用 Jupyter 笔记本可以更流畅地过渡到 Databricks。

本学习路径中的模块

Azure Databricks 是一种云服务,可为使用 Apache Spark 的数据分析提供可缩放的平台。

了解如何使用 Azure Databricks 执行数据分析。 探索各种数据引入方法,并探索如何集成来自 Azure Data Lake 和 Azure SQL 数据库之类的源的数据。 本模块指导你使用协作笔记本执行探索性数据分析 (EDA),以便你可以可视化、操作和检查数据以发现模式、异常和相关性。

Azure Databricks 基于 Apache Spark 构建,可支持数据工程师和分析师运行 Spark 作业来大规模转换、分析和可视化数据。

Delta Lake 是 Azure Databricks 中的数据管理解决方案,提供 ACID 事务、架构实施和按时间顺序查看等功能,从而确保实现数据一致性、完整性和版本控制功能。

通过构建 Lakeflow 声明性管道,可以在 Azure Databricks 中使用 Delta Lake 的高级功能实现实时、可缩放且可靠的数据处理

使用 Lakeflow 作业部署工作负载涉及协调和自动化复杂的数据处理管道、机器学习工作流和分析任务。 本模块介绍如何使用 Databricks Lakeflow 作业部署工作负载。