简介

已完成

Azure Databricks 提供了一个高度可缩放的平台,用于使用 Apache Spark 进行数据分析和处理。

Spark 是一个灵活的平台,支持各种编程语言和 API。 通过设置 Databricks 工作区和部署 Spark 群集,用户可以轻松将数据从各种源(如 Azure Data Lake 或 Cosmos DB)引入 Spark 数据帧。 在交互式 Databricks 笔记本中,用户可以使用 Spark 的数据帧 API 执行复杂的数据转换,其中涵盖了筛选、分组和聚合等操作。 大多数数据处理和分析任务都可以通过使用数据帧 API 完成,本模块将对此进行重点介绍。

在本模块中,你将了解如何:

  • 介绍 Apache Spark 体系结构的关键元素。
  • 创建和配置 Spark 群集。
  • 介绍 Spark 的用例。
  • 使用 Spark 处理和分析文件中存储的数据。
  • 使用 Spark 可视化数据。