拿掉失敗的作業或執行程式
因此,您會看到失敗的作業或已移除的執行程式:
移除執行程式最常見的原因是:
失敗的作業
如果您看到任何失敗的工作,請按兩下它們以前往其頁面。 然後向下捲動以查看失敗階段和失敗原因:
您可能會收到一般錯誤。 按下描述中的連結,以查看您是否可以取得詳細資訊:
如果您在此頁面向下卷動,您將能夠看到每個工作失敗的原因。 在此情況下,記憶體問題變得很明顯:
失敗的執行程式
若要找出執行程式失敗的原因,您必須先檢查計算的事件 記錄檔 ,以查看執行程式失敗的原因是否有任何解釋。 例如,您可以使用現成實例,而雲端提供者會將其帶回。
查看是否有任何事件說明執行程式遺失的情況。 例如,您可能會看到訊息,指出叢集正在重設大小或發現實例遺失。
- 如果您使用現成實例,請參閱 遺失現成實例。
- 如果您的計算透過自動調整來重設大小,則預期不會發生錯誤。 請參閱 深入瞭解叢集重設大小。
如果您沒有在事件記錄檔中看到任何資訊,請流覽回 Spark UI ,然後按兩下 [執行程式] 索引 標籤:
您可以在這裏從失敗的執行程式取得記錄:
後續步驟
如果到目前為止,最可能的解釋是記憶體問題。 下一個步驟是深入探討記憶體問題。 請參閱 Spark 記憶體問題。