共用方式為


一個 Spark 任務

如果您看到一個僅包含一項工作的長時間運行步驟,這很可能表示有問題。 雖然此項工作在執行時只使用一個 CPU,但叢集的其餘部分可能處於閒置狀態。 這種情況最常於下列情況發生:

  • 小型資料的昂貴 UDF
  • Window 函式 不使用 PARTITION BY 語句
  • 從不可分割的檔案類型讀取。 這表示檔案無法分多個部分讀取,因此您最終只能完成一項大型工作。 Gzip 是不可分割的檔案類型的範例。
  • 讀取 JSON 或 CSV 檔案時設定 multiLine 選項
  • 大型檔案的結構描述推斷
  • 使用重新分割(1) 或合併(1)