在笔记本中使用 Spark

已完成

可以在 Spark 上运行多种不同类型的应用程序,包括 Python 或 Scala 脚本中的代码、编译为 Java 存档 (JAR) 的 Java 代码等。 Spark 通常用于两种类型的工作负载:

  • 用于引入、清理和转换数据的批处理或流式处理作业 - 通常作为自动化管道的一部分运行。
  • 用于浏览、分析和直观呈现数据的交互式分析会话。

在笔记本中运行 Spark 代码

Azure Databricks 包含用于使用 Spark 的集成笔记本界面。 笔记本提供了一种直观的方法来将代码与 Markdown 笔记结合在一起,数据科学家和数据分析师通常会使用此方法。 Azure Databricks 中集成的笔记本体验的外观与热门的开源笔记本平台 Jupyter 笔记本的外观类似。

Azure Databricks 中的笔记本的屏幕截图。

笔记本由一个或多个单元格组成,每个单元格都会包含代码或 markdown。 笔记本中的代码单元格具有一些有助于提高工作效率的功能,包括:

  • 语法突出显示和错误支持。
  • 代码自动完成。
  • 交互式数据可视化。
  • 导出结果的功能。

提示

若要详细了解如何在 Azure Databricks 中使用笔记本,请参阅 Azure Databricks 文档中的笔记本一文。