因此,你会看到失败的任务或被删除的执行单元:
执行程序被删除的最常见原因是:
作业失败
如果看到任何失败的作业,请单击它们以访问其页面。 然后向下滚动以查看失败的阶段和失败原因:
您可能会遇到通用错误。 单击说明中的链接以查看是否可以获取详细信息:
如果在此页面中向下滚动,可以看到每个任务失败的原因。 在这种情况下,内存问题越来越明显:
执行程序失败
若要了解执行程序失败的原因,首先需要检查计算的 事件日志 ,以查看执行程序失败的原因是否有任何解释。 例如,可以使用现成实例,而云提供商会将其带回。
看看是否有任何事件解释了执行程序丢失的原因。 例如,可能有消息指出群集正在调整大小或现成 VM 实例正在丢失。
- 如果使用的是现成 VM 实例,请参阅现成 VM 实例丢失。
- 如果计算资源通过自动缩放进行了调整,这是预期行为,并非错误。 请参阅详细了解群集大小调整。
如果未在事件日志中看到任何信息,请导航回 Spark UI ,然后单击 执行程序 选项卡:
可在此处从失败的执行程序获取日志:
下一步
如果你已经到达这里,最可能的解释是内存问题。 下一步是深入分析内存问题。 请参阅 Spark 内存问题。