什么是 Apache Spark 运行系列分析?

Apache Spark 运行系列会根据重复的管道活动、手动笔记本运行或来自同一笔记本或 Spark 作业定义的 Spark 作业运行,自动对 Spark 应用程序进行分类。

运行系列功能展示了每个 Spark 应用程序实例的持续时间趋势以及数据输入或输出趋势。 它会自动扫描运行系列、检测异常并提供各个 Spark 应用程序的详细视图。

运行系列分析功能提供以下关键功能:

  • 自动优化分析:使用运行系列分析来比较自动调整结果、查看 Spark 应用程序性能、检查运行时故障并查看自动调整的 Spark SQL 查询配置。

  • 运行系列比较:将笔记本运行持续时间与过去的运行进行比较,并评估输入和输出数据以了解运行持续时间延长的原因。

  • 离群值检测和分析:检测和分析运行系列中的离群值,以确定潜在原因。

  • 详细运行实例视图:选择特定的运行实例以获取有关时间分布的详细信息。 这些详细信息可用于识别性能增强的机会以及相应的 Spark 配置。

何时使用运行系列分析?

运行系列分析功能专为性能调整和优化而设计。 如果不确定生产作业的运行状况,可以使用此功能。 它会自动扫描不同运行系列中的生产作业并执行运行状况分析。 如果想优化长时间运行的作业,可以将其与其他作业进行比较,以确定性能瓶颈和优化机会。 此外,还可以使用此功能查看自动优化的输出,并确保最佳性能。

运行系列分析的示例

下面是笔记本运行实例中的运行系列分析的示例。 可以查看该运行系列的持续时间趋势。 每个垂直条代表笔记本活动运行的一个实例,其高度指示运行持续时间。 红色条形表示为该运行实例检测到的异常。 可以选择每个运行实例以查看更详细的信息并放大或缩小特定时间窗口。

显示运行系列分析示例的屏幕截图。

访问 Spark 运行系列分析

可以通过监控中心的历史视图、笔记本或 Spark 作业定义的最近运行面板或 Spark 应用程序监控详细信息页面来访问运行系列分析功能。

显示如何访问 Spark Run 系列分析的屏幕截图。