本课程探讨如何使用 Azure 上的 Databricks 和 Apache Spark 将数据项目从浏览到生产环境。 你将了解如何使用 Spark 数据帧、Spark SQL 和 PySpark 引入、转换和分析大规模数据集,同时增强管理分布式数据处理的信心。 在此过程中,你将亲身体验 Databricks 工作区,导航群集,并创建和优化 Delta 表。 你还将深入了解数据工程实践,包括设计 ETL 管道、处理架构演变以及强制实施数据质量。 课程随后讲解编排相关内容,向你展示如何使用 Lakeflow 作业和管道实现工作负载的自动化与管理。 为了全面解决问题,你将探索 Unity 目录和 Purview 集成等治理和安全功能,确保可以在安全、托管良好且生产就绪的环境中处理数据。
受众概况
在学习本课程之前,学习者应该已经熟悉 Python 和 SQL 的基础知识。 这包括能够编写简单的 Python 脚本并处理常见数据结构,以及编写 SQL 查询来筛选、联接和聚合数据。 对常见文件格式(如 CSV、JSON 或 Parquet)的基本了解也有助于处理数据集。 此外,熟悉 Azure 门户和 Azure 存储等核心服务非常重要,并大致了解数据概念,例如批处理处理与流处理,结构化数据与非结构化数据。 虽然不是强制性的,但之前接触 Spark 等大数据框架并体验使用 Jupyter 笔记本可以更流畅地过渡到 Databricks。