使用 Azure Databricks 实现数据分析解决方案

学习路径
6 模块

速览

级别

中级
技能

 
产品

Azure Databricks
角色

数据分析人员
使用者

数据分析

完成此学习路径后，你将在 Azure 上的 Databricks 和 Spark 中具备扎实的中高级技能。能够使用 Spark 数据帧、Spark SQL 和 PySpark 引入、转换和分析大规模数据集，让你有信心处理分布式数据处理。在 Databricks 中，了解如何导航工作区、管理群集以及生成和维护 Delta 表。

你还将能够设计和运行 ETL 管道、优化 Delta 表、管理架构更改以及应用数据质量规则。此外，你将学习如何使用 Lakeflow 作业和管道来编排工作负载，从而帮助你从探索阶段过渡到自动化工作流。最后，你熟悉治理和安全功能，包括 Unity 目录、Purview 集成和访问管理，准备在生产就绪的数据环境中有效运行。

先决条件

在开始学习路径之前，应该已经熟悉 Python 和 SQL 的基础知识。这包括能够编写简单的 Python 脚本并处理常见数据结构，以及编写 SQL 查询来筛选、联接和聚合数据。对常见文件格式（如 CSV、JSON 或 Parquet）的基本了解也有助于处理数据集。

此外，熟悉 Azure 门户和 Azure 存储等核心服务非常重要，并大致了解数据概念，例如批处理处理与流处理，结构化数据与非结构化数据。虽然不是强制性的，但之前接触 Spark 等大数据框架并体验使用 Jupyter 笔记本可以更流畅地过渡到 Databricks。

本学习路径中的模块

了解 Azure Databricks

Azure Databricks 是一种云服务，可为使用 Apache Spark 的数据分析提供可缩放的平台。

使用 Azure Databricks 执行数据分析

了解如何使用 Azure Databricks 执行数据分析。探索各种数据引入方法，并探索如何集成来自 Azure Data Lake 和 Azure SQL 数据库之类的源的数据。本模块指导你使用协作笔记本执行探索性数据分析 (EDA)，以便你可以可视化、操作和检查数据以发现模式、异常和相关性。

在 Azure Databricks 中使用 Apache Spark

Azure Databricks 基于 Apache Spark 构建，可支持数据工程师和分析师运行 Spark 作业来大规模转换、分析和可视化数据。

使用 Delta Lake 管理数据

Delta Lake 是 Azure Databricks 中的数据管理解决方案，提供 ACID 事务、架构实施和按时间顺序查看等功能，从而确保实现数据一致性、完整性和版本控制功能。

构建 Lakeflow 声明性管道

通过构建 Lakeflow 声明性管道，可以在 Azure Databricks 中使用 Delta Lake 的高级功能实现实时、可缩放且可靠的数据处理

使用 Lakeflow 作业部署工作负载

使用 Lakeflow 作业部署工作负载涉及协调和自动化复杂的数据处理管道、机器学习工作流和分析任务。本模块介绍如何使用 Databricks Lakeflow 作业部署工作负载。

开始