课程

使用 Azure Databricks 实现数据分析解决方案

课程 DP-3011-A：使用 Azure Databricks 实现数据分析解决方案

速览

级别

中级
产品

Azure
角色

数据分析人员
语言

英语中文(简体) 法语德语日语葡萄牙语（巴西）西班牙语
课程持续时间

1 天

概述

本课程探讨如何使用 Azure 上的 Databricks 和 Apache Spark 将数据项目从浏览到生产环境。你将了解如何使用 Spark 数据帧、Spark SQL 和 PySpark 引入、转换和分析大规模数据集，同时增强管理分布式数据处理的信心。在此过程中，你将亲身体验 Databricks 工作区，导航群集，并创建和优化 Delta 表。你还将深入了解数据工程实践，包括设计 ETL 管道、处理架构演变以及强制实施数据质量。课程随后讲解编排相关内容，向你展示如何使用 Lakeflow 作业和管道实现工作负载的自动化与管理。为了全面解决问题，你将探索 Unity 目录和 Purview 集成等治理和安全功能，确保可以在安全、托管良好且生产就绪的环境中处理数据。

受众概况

在学习本课程之前，学习者应该已经熟悉 Python 和 SQL 的基础知识。这包括能够编写简单的 Python 脚本并处理常见数据结构，以及编写 SQL 查询来筛选、联接和聚合数据。对常见文件格式（如 CSV、JSON 或 Parquet）的基本了解也有助于处理数据集。此外，熟悉 Azure 门户和 Azure 存储等核心服务非常重要，并大致了解数据概念，例如批处理处理与流处理，结构化数据与非结构化数据。虽然不是强制性的，但之前接触 Spark 等大数据框架并体验使用 Jupyter 笔记本可以更流畅地过渡到 Databricks。

完成后获得的技能

课程纲要

可以在讲师引导式培训或自定进度学习中做好准备

隐藏已完成