このセクションでは、Azure Databricks ユーザー インターフェイスで Lakeflow Spark デクラレーティブ パイプラインの組み込みのモニタリング機能と可観測性機能を使用する方法について説明します。 これらの機能では、次のようなタスクがサポートされます。
- パイプラインの更新の進行状況と状態の監視。 監視ページで使用可能なパイプラインの詳細を参照してください。
- パイプラインの更新の成功または失敗などのパイプライン イベントに関するアラート。 パイプライン イベント の電子メール通知の追加を参照してください。
- Apache Kafka や自動ローダー (パブリック プレビュー) などのストリーミング ソースのメトリックの表示。 を参照して、のストリーミングメトリクスを表示してください。
パイプライン イベントに対するメール通知を追加する
次の場合に通知を受信するように 1 つ以上のメール アドレスを構成できます:
- パイプラインの更新が正常に完了しました。
- パイプラインの更新は、再試行可能なエラーまたは再試行不可能なエラーで失敗します。 すべてのパイプラインエラーの通知を受け取る場合は、このオプションを選択します。
- パイプラインの更新は、再試行できない (致命的な) エラーで失敗します。 再試行できないエラーが発生した場合にのみ通知を受け取る場合は、このオプションを選択します。
- 1 つのデータ フローが失敗します。
電子メール通知を構成するには、パイプラインの設定を編集します。 「 通知」を参照してください。
注
Python イベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答 を作成します。
UI でのパイプラインの表示
からパイプラインを見つけます。ワークスペース サイドバーの [ジョブとパイプライン] オプション。 [ ジョブとパイプライン] ページが開き、アクセスできる各ジョブとパイプラインに関する情報を表示できます。 パイプラインの名前をクリックして、パイプライン監視ページを開きます。 ジョブまたはパイプラインを編集するには、
をクリックします。メニューをクリックし、[ 編集] を選択します。
注
ジョブとさまざまなパイプラインの種類には、それぞれ異なるエディターがあります。 [編集] オプションを選択すると、選択したオブジェクトの適切なエディターが開きます。
ジョブとパイプラインのリストの使用方法
アクセスできるパイプラインの一覧を表示するには、[ワークフロー] アイコンをクリックサイドバーのジョブとパイプライン。 [ ジョブとパイプライン ] タブには、作成者、トリガー (存在する場合)、最後の 5 回の実行の結果など、使用可能なすべてのジョブとパイプラインに関する情報が一覧表示されます。
パイプラインまたはジョブの名前をクリックすると、そのパイプラインまたはジョブの監視ページに移動します。 パイプラインまたはジョブを編集するには、 をクリックし、[ 編集] を選択します。
リストに表示される列を変更するには、[ をクリックし、列を選択または選択解除します。 たとえば、
Pipeline Type を列として追加するには、その列を選択して表示します。
次のスクリーンショットに示すように、 ジョブとパイプラインの 一覧でジョブをフィルター処理できます。
-
テキスト検索: [名前 ] フィールドと [ ID ] フィールドでキーワード検索がサポートされています。 キーと値で作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。 たとえば、キー
departmentと値financeを持つタグの場合、departmentまたはfinanceを検索して一致するジョブを見つけることができます。 キーと値で検索するには、キーと値をコロンで区切って入力します (例:department:finance)。 - 種類: ジョブ、 パイプライン、または すべてでフィルター処理します。 [パイプライン] を選択した場合は、ETL パイプラインとインジェスト パイプラインを含むパイプラインの種類でフィルター処理することもできます。
- 所有者: 所有しているジョブのみを表示します。
- お気に入り: あなたが「お気に入り」としてマークしたジョブを表示します。
- タグ: タグを使用します。 タグで検索するには、[タグ] ドロップダウン メニューを使用して、最大 5 つのタグを同時にフィルター処理するか、キーワード検索を直接使用します。
-
実行方法: 最大 2 つの
run as値でフィルター処理します。
ジョブまたはパイプラインを開始するには、の再生ボタンをクリックします。 ジョブまたはパイプラインを停止するには、[
] ボタンをクリックします。 その他のアクションにアクセスするには、Kebab メニューの
をクリックします。 たとえば、ジョブまたはパイプラインを編集または削除したり、そのメニューからパイプラインの設定にアクセスしたりできます。
監視ページで使用できるパイプラインの詳細
注
UI でパイプラインを監視するときに表示される内容に影響を与える可能性のあるプレビューが複数あります。
- Lakeflow パイプライン エディターでは、パイプラインの詳細のエクスペリエンスが変更されます。 プレビューを選択した場合、情報はここで説明した UI とは異なる UI に表示されます。 その UI の詳細については、「 Lakeflow Pipelines エディターの変更点」を参照してください。
- 統合実行一覧プレビューでは、パイプライン実行がジョブ実行リストに追加されます。 そのプレビューが有効になっている変更と、その変更を有効にする方法の詳細については、「 統合実行一覧のプレビューにおける変更点」を参照してください。
ジョブとパイプライン ページでパイプラインの名前をクリックすると、そのパイプラインのモニタリングページが表示されます。 ここからパイプラインの実行を開始し、前の実行の詳細を表示できます。
パイプライン グラフ (DAG とも呼ばれます) は、パイプラインの更新が正常に開始されるとすぐに表示されます。 矢印は、パイプライン内のデータセット間の依存関係を表します。 既定では、パイプライン監視ページにテーブルの最新の更新プログラムが表示されますが、ドロップダウン メニューから古い更新プログラムを選択できます。
詳細には、パイプライン ID、ソース コード、コンピューティング コスト、製品エディション、パイプライン用に構成されたチャネルが含まれます。
データセットの表形式ビューを表示するには、[ リスト ] タブをクリックします。 リスト ビューを使用すると、パイプライン内のすべてのデータセットをテーブルの行として表すことができます。パイプライン グラフが大きすぎて グラフ ビューで視覚化しない場合に便利です。 データセット名、型、状態などの複数のフィルターを使用して、テーブルに表示されるデータセットを制御できます。 もう一度 DAG の視覚化に切り替えるには、[グラフ] をクリックします。
[実行ユーザー] はパイプラインの所有者であり、パイプラインの更新はこのユーザーのアクセス許可で実行されます。
run as ユーザーを変更するには、[アクセス許可] をクリックしてパイプラインの所有者を変更します。
Lakeflow パイプライン エディターでの変更点
Lakeflow Pipelines Editor プレビューと新しいパイプライン監視 UI にオプトインしている場合、一部の情報は UI のさまざまな場所にあります。 Lakeflow パイプライン エディターの詳細と、両方のプレビューの選択については、「 Lakeflow パイプライン エディターを有効にする」と「更新された監視」を参照してください。
Important
この機能は パブリック プレビュー段階です。
パイプライン監視ページでの監視に対する次の変更は、両方のプレビューにオプトインすると表示されます。
右側のパネルの [ パイプラインの詳細 ] タブと [更新プログラムの 詳細 ] タブが、上部にあるパイプラインの詳細にマージされ、その後に更新の詳細が表示されます。
グラフ内のテーブルをクリックしても、右側のパネルにテーブルの詳細は表示されません。 右側のパネルには、パイプラインと更新の詳細が引き続き表示されます。 代わりに、下部のパネルにテーブル情報が表示されます。
開発モードでパイプラインを実行するための規則が若干更新されます。 開発モードの詳細については、「 開発モード」を参照してください。
- スケジュールまたはトリガーを使用してパイプラインを実行すると、開発モードを使用するかどうかのパイプライン設定に従います。 パイプラインの既定値は、 パイプラインの設定で変更できます。
- 監視 UI を使用してパイプラインを実行すると、パイプライン設定で定義されているモードが使用されます。 ドロップダウンの [ 別の設定で実行 ] オプションを使用して、開発モードを使用するかどうかを選択できます。
- パイプライン エディターからパイプラインを実行すると、既定で開発モードになります。 ドロップダウンで [ 異なる設定で実行 ] オプションを使用して、開発モードを使用しないことを選択できます。
パイプラインの詳細にソース コードへのリンクがなくなりました。 代わりに、上部にある [パイプラインの編集] を選択します。 特定のテーブルのコードに移動するには、DAG 内のテーブルにカーソルを合わせ、[
コード ボタンに移動 します。
パイプライン監視ページのすべての更新で、イベント ログが既定で表示されなくなります。 処理中にエラーが発生すると、下部のパネルにエラーが表示され、[ ログの表示 ] ボタンが表示され、その実行のイベント ログが表示されます。 イベント ログは、[
を選択して使用することもできます。右側のパネルの実行の詳細からイベント ログを表示します。
新しい Lakeflow パイプライン エディターで更新を実行するときにイベント ログにアクセスするには、エディターの下部にある [問題と分析情報 ] パネルに移動し、[ログの 表示] をクリックするか、エラーの横にある [ ログで開く ] ボタンをクリックします。 詳細については、 Lakeflow パイプライン エディターとイベント ログのパイプライン設定に関するページを参照してください。
テーブル スキーマ情報を使用するには、下部パネルの [ テーブル ] タブでテーブルを選択し、[ 列] を選択します。
クエリ履歴は、下部のパネルで [パフォーマンス ] を選択して使用できます。
テーブル コメントは、パイプラインの詳細ページからは使用できません。 テーブルのコメントを表示するには、カタログ エクスプローラーからテーブルを表示します。 カタログ エクスプローラーでテーブルに直接移動するには、DAG 内のテーブルの上にマウス ポインターを置き、[
をクリックし、[
カタログで表示します。 [
をクリックして、下部パネルのテーブルの一覧からカタログ エクスプローラーの情報にアクセスすることもできます。
統合実行一覧プレビューでの変更点
統合実行一覧プレビューを有効にしている場合は、[ジョブとパイプライン] ページでパイプラインの実行の更新を確認できます。
Important
統合実行の一覧は パブリック プレビュー段階です。
統合実行リストを有効にするには、ワークスペース管理者がプレビューをオプトインする必要があります。 プレビューのオプトインの詳細については、「 アカウント レベルのプレビューを管理する」を参照してください。
統合実行の一覧にアクセスするには、[チェックリスト] アイコンを選択 ワークスペースサイドバーから実行するか、[ワークフロー] アイコンをクリック
[ジョブ] と [パイプライン] で、[ 実行 ] タブを選択します。
このタブには、過去 60 日間の最近の実行の一覧が表示されます。 次の場合、過去 48 時間の実行の成功と失敗を示すグラフが最初に表示されます。
- ジョブ または パイプライン のみにフィルター処理されます。
- 管理者である場合、実行のみをフィルターする
Run as: Me - 実行がグラフに表示されるまでに最大 1 時間かかる場合があります。
リストとグラフは、次の方法でフィルター処理できます。
- ジョブまたはパイプラインの名前。
- All、 Jobs、または Pipelines。
- パイプラインの種類 (ETL、インジェスト、MV/ST、またはデータベース テーブル同期)。
- ユーザーとして実行します。
- 実行 開始時刻 (過去 48 時間以内)。
- [実行] の状態。
- 失敗した実行の エラー コード 。
上記以外にも、次の列を一覧に表示できます。
- 終了時刻
- 実行 ID
- 実行が手動で起動されたか、スケジュールによって 起動されたか 。
- 実行 継続時間。
- パラメーターを実行します。
実行リストに表示される列を変更するには、[列] をクリックし、列を選択または選択解除します。
パイプライン実行の 開始時刻、 終了時刻、または 名前 をクリックすると、パイプラインの 監視ページ に移動します。
パイプラインがアクティブに実行されている場合は、[停止] アイコンをクリックして実行を できます。停止ボタン。 いつでも、
をクリックすることもできます。実行の行のメニュー ボタンをクリックし、[ パイプラインの編集] を選択してエディターにパイプラインを表示します。
データセットの詳細を表示する方法
パイプライン グラフまたはデータセットの一覧でデータセットをクリックすると、データセットに関する詳細が表示されます。 詳細には、データセット スキーマ、データ品質メトリック、データセットを定義するソース コードへのリンクが含まれます。
更新履歴の表示
パイプラインの更新の履歴と状態を表示するには、上部のバーにある更新履歴のドロップダウン メニューをクリックします。
ドロップダウン メニューで更新プログラムを選択して、更新プログラムのグラフ、詳細、イベントを表示します。 最新の更新プログラムに戻すには、[最新の更新プログラム 表示] をクリックします。
ストリーミング メトリックを表示する
Important
パイプラインのストリーミング可観測性は パブリック プレビュー段階です。
パイプライン内の各ストリーミング フローについて、Apache Kafka、Amazon Kinesis、Auto Loader、Delta テーブルなど、Spark Structured Streaming でサポートされているデータ ソースからのストリーミング メトリックを表示できます。 メトリックはパイプライン UI の右側のウィンドウにグラフとして表示され、バックログの秒、バックログ バイト、バックログ レコード、バックログ ファイルが含まれます。 グラフには、分単位で集計された最大値が表示され、グラフにカーソルを合わせるとヒントに最大値が表示されます。 データは、現在の時刻から過去 48 時間に制限されます。
ストリーミング メトリックを使用できるパイプライン内のテーブルには、UI
LDP Chart Iconグラフ ビューでパイプライン DAG を表示するときにが表示されます。 ストリーミングメトリクスを表示するには、右側のペインの
各ストリーミング ソースでは、特定のメトリックのみがサポートされます。 ストリーミング ソースでサポートされていないメトリックは、UI で表示できません。 次の表は、サポートされているストリーミング ソースで使用できるメトリックを示しています。
| ソース | バックログ バイト数 | バックログ レコード | バックログ秒 | バックログ ファイル |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| 自動ローダー | ✓ | ✓ | ||
| Google Pub/Sub (グーグルパブサブ) | ✓ | ✓ |