次の方法で共有


ジョブ タイムライン

ジョブ タイムラインは、パイプラインまたはクエリを理解するための優れた出発点です。 実行されていた内容、各ステップの所要時間、途中でエラーが発生したかどうかの概要が示されます。

ジョブ タイムラインを開く方法

Spark UI で、次のスクリーンショットで 赤で強調表示されている [ジョブ][イベント タイムライン] をクリックします。 タイムラインが表示されます。 この例では、ドライバーと Executor 0 が追加されていることを示します。

ジョブ タイムライン

注意点

以下のセクションでは、イベント タイムラインを読んで、パフォーマンス上またはコスト上の問題の考えられる原因を見つけ出す方法について説明します。 タイムラインでこれらの傾向に気付いた場合、対応する各セクションの末尾にガイダンスを提供する記事へのリンクが含まれています。

失敗したジョブまたは失敗した Executor

失敗したジョブと削除された Executor の例を次に示します。イベント タイムライン上では、赤色の状態で示されます。

失敗したジョブ

失敗したジョブまたは失敗した Executor が表示される場合は、「失敗したジョブまたは削除された Executor」を参照してください。

実行のギャップ

次の例のように、1 分以上のギャップを探します。

ジョブのギャップ

この例にはいくつかのギャップがあり、その一部は赤い矢印で強調表示されています。 タイムラインにギャップが表示される場合、それらは 1 分以上ですか? ドライバーがワークを調整するため、短いギャップが想定されます。 ギャップが長い場合は、パイプラインの途中にありますか? または、このクラスターは常に実行されていて、アクティビティの一時停止によってギャップが説明されますか? これは、ワークロードが開始および終了した時刻に基づいて判断できる場合があります。

パイプラインの途中に長い原因不明のギャップがある場合は、「Spark ジョブ 間のギャップ」を参照してください。

長いジョブ

タイムラインは 1 つまたはいくつかの長いジョブによって支配されていますか? これらの長いジョブは、調査する必要があります。 次の例では、ワークロードに他のジョブよりもはるかに長い 1 つのジョブがあります。 これは調査すべきターゲットです。

長いジョブ

調査すべき最も長いジョブをクリックします。 この長いステージの調査については、「Spark での長いステージの診断」を参照してください。

多数の小さなジョブ

ここでは考察するのは、小さな仕事が大部分を占めるタイムラインです。 次のように表示されます。

小さいジョブ

多数の小さな青い線に注目してください。 これらはそれぞれ、数秒以下の小さな仕事です。

タイムラインがほとんど小さいジョブの場合は、「多数の小さな Spark ジョブ」を参照してください。

上記以外

タイムラインが上記のように表示されない場合、次の手順は最長のジョブを識別することです。 ジョブを長さ別に並べ替え、最長ジョブの説明のリンクをクリックします。

最長ジョブの特定

最も長いジョブのページに入ると、この長いステージの調査に関する追加情報は、「Spark での長いステージの診断」にあります。