Share via


Spark UI を使用してコストとパフォーマンスの問題を診断する

このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 それはステップ バイ ステップ ガイドであり、実用的なハウツーです。 Spark UI の各ページの内容を説明するだけでなく、何を調べるべきか、またその意味を示します。 ドライバー、worker、Executor、ステージ、タスクの概念に慣れていない場合は、Spark アーキテクチャを確認することもできます。

さまざまな最適化ツールの包括的な一覧を探している場合は、Databricks 最適化ガイドを使用してください。 最適化ガイドのセクションについては、この Spark UI ガイドを参照してください。

このガイドの使用法

ガイド内を移動するには、各ページに埋め込まれているリンクから次の手順に進んでください。 このガイドには、次の手順が順番に記載されています。

  1. ジョブ タイムラインを使用して主要な問題を特定する
  2. 最長のステージを見る
  3. スキューまたはスピルを探す
  4. 最長のステージが I/O バインドであるかどうかを判断する
  5. 低速ステージ ランタイムのその他の原因を探す

それでは始めましょう。

Spark UI を開く方法

  1. クラスターのページに移動します。

    [Compute] に移動する

  2. [Spark UI] をクリックします。

    [SparkUI] に移動する

次のステップ

Spark UI を開いたら、次にイベントタイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。