Important
この機能は パブリック プレビュー段階です。
この記事では、Lakeflow Spark 宣言パイプラインのノートブックを使用して ETL パイプラインを開発およびデバッグする方法について説明します。
注
このページでは、従来のノートブック編集エクスペリエンスについて説明します。 既定の推奨エクスペリエンスは、Lakeflow Pipelines エディターです。 Lakeflow Pipelines エディターを使用して、ノートブック、またはパイプラインの Python または SQL コード ファイルを編集できます。 詳細については、「 Lakeflow Pipelines Editor を使用した ETL パイプラインの開発とデバッグ」を参照してください。
このページで説明されているノートブック エクスペリエンスを構成するには、Lakeflow パイプライン エディターをオフにする必要があります。 「Lakeflow パイプライン エディターを有効にする」と「更新された監視」を参照してください。
Lakeflow Spark 宣言型パイプラインのノートブックの概要
既存のパイプラインのソース コードとして構成されている Python または SQL ノートブックで作業する場合は、ノートブックをパイプラインに直接接続できます。 ノートブックがパイプラインに接続されている場合は、次の機能を使用できます。
- ノートブックからパイプラインを開始して検証します。
- ノートブックの最新の更新プログラムのパイプラインのデータフロー グラフとイベント ログを表示します。
- ノートブック エディターでパイプライン診断を表示します。
- ノートブックでパイプラインのクラスターの状態を表示します。
- ノートブックから Lakeflow Spark 宣言パイプライン UI にアクセスします。
[前提条件]
- Python または SQL ノートブックをソース コードとして構成した既存のパイプラインが必要です。
- パイプラインの所有者であるか、
CAN_MANAGE特権を持っている必要があります。
制限事項
- この記事で説明する機能は、Azure Databricks ノートブックでのみ使用できます。 ワークスペース ファイルはサポートされていません。
- パイプラインにアタッチされている場合、Web ターミナルは使用できません。 その結果、下部のパネルにタブとして表示されません。
ノートブックをパイプラインに接続する
ノートブック内で、コンピューティングの選択に使用するドロップダウン メニューをクリックします。 ドロップダウン メニューには、ソース コードとしてこのノートブックを含むすべての Lakeflow Spark 宣言パイプラインが表示されます。 ノートブックをパイプラインに接続するには、一覧からノートブックを選択します。
パイプラインのクラスターの状態を表示する
パイプラインのクラスターの状態を簡単に理解するために、クラスターが実行されていることを示す緑色の状態がコンピューティング ドロップダウン メニューに表示されます。
パイプライン コードを検証する
パイプラインを検証して、データを処理せずにソース コード内の構文エラーを確認できます。
パイプラインを検証するには、次のいずれかの操作を行います。
- ノートブックの右上隅にある [ 検証] をクリックします。
- 任意のノートブック セルで
Shift+Enterキーを押します。 - セルのドロップダウン メニューで、[ パイプラインの検証] をクリックします。
注
既存の更新プログラムが既に実行されている間にパイプラインを検証しようとすると、既存の更新プログラムを終了するかどうかを確認するダイアログ ボックスが表示されます。 [ はい] をクリックすると、既存の更新プログラムが停止し、 更新の検証 が自動的に開始されます。
パイプラインの更新を開始する
パイプラインの更新を開始するには、ノートブックの右上隅にある [開始 ] ボタンをクリックします。 「パイプラインの更新を実行する」を参照してください。
更新プログラムの状態を表示する
ノートブックの上部パネルに、パイプラインの更新が次の内容であるかどうかを表示します。
- 開始中
- 検証中
- 停車
エラーと診断を表示する
パイプラインの更新または検証を開始すると、エラーが赤い下線でインラインで表示されます。 エラーにカーソルを合わせると、詳細情報が表示されます。
パイプライン イベントを表示する
パイプラインにアタッチすると、ノートブックの下部に Lakeflow Spark 宣言パイプラインのイベント ログ タブがあります。
パイプライン データフロー グラフを表示する
パイプラインのデータフロー グラフを表示するには、ノートブックの下部にある Lakeflow Spark の [宣言型パイプライン] グラフ タブを使用します。 グラフ内のノードを選択すると、右側のパネルにそのスキーマが表示されます。
ノートブックから Lakeflow Spark 宣言パイプライン UI にアクセスする方法
Lakeflow Spark 宣言パイプライン UI に簡単に移動するには、ノートブックの右上隅にあるメニューを使用します。
ノートブックからドライバー ログと Spark UI にアクセスする
開発中のパイプラインに関連付けられているドライバー ログと Spark UI には、ノートブックの [表示 ] メニューから簡単にアクセスできます。