共用方式為


在Spark中診斷長階段

從識別作業最長階段開始。 捲動至作業頁面底部的階段清單,並依持續時間排序:

長階段

階段 I/O 詳細數據

若要查看此階段執行作業的相關高階數據,請查看 [輸入]、 [輸出]、 [隨機讀取] 和 [隨機寫入] 數據行:

長階段 I/O

資料行表示下列各項:

  • 輸入: 這個階段從記憶體讀取的數據量。 這可能是從 Delta、Parquet、CSV 等讀取。
  • 輸出: 這個階段寫入記憶體的數據量。 這可能寫入 Delta、Parquet、CSV 等。
  • 隨機讀取: 這個階段所讀取的隨機數據量。
  • 隨機寫入: 這個階段所寫入的隨機數據量。

如果您不熟悉洗牌是什麼,現在是瞭解這意味著什麼的好時機

請記下這些數字,因為您稍後可能需要這些數位。

工作數目

較長階段中的工作數目可以指出問題的方向。 您可以在這裡檢視來判斷工作數目:

判斷工作數目

如果您看到一項工作,這可能是問題的跡象。 如需詳細資訊,請參閱 一個Spark工作

檢視更多階段詳細數據

如果階段有多個工作,您應該進一步調查。 按兩下階段描述中的連結,以取得最長階段的詳細資訊:

開啟階段資訊

既然您已在階段的頁面,請參閱 扭曲和溢出