你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Apache Spark 准则
本文提供在 Azure HDInsight 上使用 Apache Spark 的各种准则。
如何运行或提交 Spark 作业?
选项 | 文档 |
---|---|
Visual Studio Code | 使用适用于 Visual Studio Code 的 Spark & Hive Tools |
Jupyter Notebook | 教程:在 Azure HDInsight 中的 Apache Spark 群集上加载数据并运行查询 |
IntelliJ | 教程:使用 Azure Toolkit for IntelliJ 为 HDInsight 群集创建 Apache Spark 应用程序 |
IntelliJ | 教程:使用 IntelliJ 在 HDInsight 中创建适用于 Apache Spark 的 Scala Maven 应用程序 |
Zeppelin 笔记本 | 在 Azure HDInsight 上的 Apache Spark 群集中使用 Apache Zeppelin 笔记本 |
使用 Livy 进行远程作业提交 | 使用 Apache Spark REST API 将远程作业提交到 HDInsight Spark 群集 |
Apache Oozie | Oozie 是一个管理 Hadoop 作业的工作流和协调系统。 |
Apache Livy | 可以使用 Livy 运行交互式 Spark shell,或提交要在 Spark 上运行的批处理作业。 |
适用于 Apache Spark 的 Azure 数据工厂 | 数据工厂管道中的 Spark 活动在自己或[按需] HDInsight 群集上执行 Spark 程序。 |
适用于 Apache Hive 的 Azure 数据工厂 | 数据工厂管道中的 HDInsight Hive 活动会在你自己的或按需 HDInsight 群集上执行 Hive 查询。 |
如何监视和调试 Spark 作业?
选项 | 文档 |
---|---|
Azure Toolkit for IntelliJ | 使用 Azure Toolkit for IntelliJ 进行失败 Spark 作业调试(预览) |
通过 SSH 使用的 Azure Toolkit for IntelliJ | 使用 Azure Toolkit for IntelliJ 通过 SSH 在本地或远程调试 HDInsight 群集上的 Apache Spark 应用程序 |
通过 VPN 使用的 Azure Toolkit for IntelliJ | 使用 Azure Toolkit for IntelliJ 通过 VPN 在 HDInsight 中远程调试 Apache Spark 应用程序 |
Apache Spark History Server 上的作业图形 | 使用扩展的 Apache Spark History Server 调试和诊断 Apache Spark 应用程序 |
如何使 Spark 作业更高效地运行?
选项 | 文档 |
---|---|
IO 缓存 | 使用 Azure HDInsight IO 缓存提高 Apache Spark 工作负载的性能(预览版) |
配置选项 | 优化 Apache Spark 作业 |
如何连接到其他 Azure 服务?
选项 | 文档 |
---|---|
HDInsight 上的 Apache Hive | 将 Apache Spark 和 Apache Hive 与 Hive Warehouse Connector 集成 |
Apache HBase on HDInsight | 使用 Apache Spark 读取和写入 Apache HBase 数据 |
Apache Kafka on HDInsight | 教程:将 Apache Spark 结构化流式处理与 Apache Kafka on HDInsight 配合使用 |
Azure Cosmos DB | Azure Synapse Link for Azure Cosmos DB |
可以使用哪些存储选项?
选项 | 文档 |
---|---|
Azure Data Lake Storage Gen2 | 将 Azure Data Lake Storage Gen2 用于 Azure HDInsight 群集 |
Azure Blob 存储 | 将 Azure 存储与 Azure HDInsight 群集配合使用 |