在笔记本中使用 Spark
可以在 Spark 上运行多种不同类型的应用程序,包括 Python 或 Scala 脚本中的代码、编译为 Java 存档 (JAR) 的 Java 代码等。 Spark 通常用于两种类型的工作负载:
- 用于引入、清理和转换数据的批处理或流式处理作业 - 通常作为自动化管道的一部分运行。
- 用于浏览、分析和直观呈现数据的交互式分析会话。
在笔记本中运行 Spark 代码
Azure Databricks 包含用于使用 Spark 的集成笔记本界面。 笔记本提供了一种直观的方法来将代码与 Markdown 笔记结合在一起,数据科学家和数据分析师通常会使用此方法。 Azure Databricks 中集成的笔记本体验的外观与热门的开源笔记本平台 Jupyter 笔记本的外观类似。
笔记本由一个或多个单元格组成,每个单元格都会包含代码或 markdown。 笔记本中的代码单元格具有一些有助于提高工作效率的功能,包括:
- 语法突出显示和错误支持。
- 代码自动完成。
- 交互式数据可视化。
- 导出结果的功能。
提示
若要详细了解如何在 Azure Databricks 中使用笔记本,请参阅 Azure Databricks 文档中的笔记本一文。