共用方式為


拿掉失敗的作業或執行程式

因此,您會看到失敗的作業或已移除的執行程式:

失敗的作業

移除執行程式最常見的原因是:

  • 自動調整:在此情況下,這是預期的,而非錯誤。 請參閱啟用自動調整
  • Spot 執行個體遺失:雲端提供者正在回收您的 VM。 您可以在此處深入了解 Spot 執行個體。
  • 執行程式記憶體不足

失敗的作業

如果您看到任何失敗的工作,請按兩下它們以前往其頁面。 然後向下捲動以查看失敗階段和失敗原因:

失敗原因

您可能會收到一般錯誤。 按下描述中的連結,以查看您是否可以取得詳細資訊:

失敗描述

如果您在此頁面向下卷動,您將能夠看到每個工作失敗的原因。 在此情況下,記憶體問題變得很明顯:

失敗的工作

失敗的執行程式

若要找出執行程式失敗的原因,您必須先檢查計算的事件 記錄檔 ,以查看執行程式失敗的原因是否有任何解釋。 例如,您可以使用現成實例,而雲端提供者會將其帶回。

事件記錄檔

查看是否有任何事件說明執行程式遺失的情況。 例如,您可能會看到訊息,指出叢集正在重設大小或發現實例遺失。

如果您沒有在事件記錄檔中看到任何資訊,請流覽回 Spark UI ,然後按兩下 [執行程式] 索引 標籤:

[執行程式] 索引標籤

您可以在這裏從失敗的執行程式取得記錄:

失敗的執行程式範例

後續步驟

如果到目前為止,最可能的解釋是記憶體問題。 下一個步驟是深入探討記憶體問題。 請參閱 Spark 記憶體問題