Lakeflow パイプラインエディターを使用して ETL パイプラインを開発およびデバッグする

Important

この記事では、Lakeflow Pipelines エディターを使用して、Lakeflow Spark 宣言パイプライン (SDP) で ETL (抽出、変換、読み込み) パイプラインを開発およびデバッグする方法について説明します。

注

Lakeflow パイプラインエディターは既定で有効になっています。オフにすることも、オフにした場合は再度有効にすることもできます。「Lakeflow パイプラインエディターを有効にする」と「更新された監視」を参照してください。

Lakeflow パイプラインエディターとは

Lakeflow パイプラインエディターは、パイプラインを開発するために構築された IDE です。すべてのパイプライン開発タスクが 1 つのサーフェイスに結合され、コード優先ワークフロー、フォルダーベースのコード編成、選択的実行、データプレビュー、パイプライングラフがサポートされます。 Azure Databricks プラットフォームと統合され、バージョン管理、コードレビュー、スケジュールされた実行も可能になります。

Lakeflow パイプラインエディター UI の概要

次の図は、Lakeflow パイプラインエディターを示しています。

Lakeflow パイプラインエディター

この図は、次の機能を示しています。

パイプライン資産ブラウザー: パイプライン資産を作成、削除、名前変更、および整理します。パイプライン構成へのショートカットも含まれています。
タブを含む複数ファイルコードエディター: パイプラインに関連付けられている複数のコードファイル間で動作します。
パイプライン固有のツールバー: パイプライン構成オプションが含まれており、パイプラインレベルの実行アクションがあります。
対話型有向非循環グラフ (DAG): テーブルの概要を取得し、データプレビューの下部バーを開き、テーブル関連のその他のアクションを実行します。
データプレビュー: ストリーミングテーブルと具体化されたビューのデータを検査します。
テーブルレベルの実行分析情報: パイプライン内のすべてのテーブルまたは 1 つのテーブルの実行分析情報を取得します。分析情報は、最新のパイプライン実行を参照します。
問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。コード付きエラーインジケーターを補完します。
選択的実行: コードエディターには、ファイルの実行アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
既定のパイプラインフォルダー構造: 新しいパイプラインには、定義済みのフォルダー構造と、パイプラインの開始点として使用できるサンプルコードが含まれています。
パイプラインの作成の簡略化: 既定でテーブルを作成する必要がある名前、カタログ、スキーマを指定し、既定の設定を使用してパイプラインを作成します。後でパイプラインエディターのツールバーから設定を調整できます。

新しい ETL パイプラインを作成する

Lakeflow Pipelines Editor を使用して新しい ETL パイプラインを作成するには、次の手順に従います。

サイドバーの上部にある [プラス] アイコンをクリック [新規 ] を選択し、[ ETL パイプライン。
上部には、パイプラインに一意の名前を付けることができます。
名前のすぐ下に、選択された既定のカタログとスキーマが表示されます。これらを変更して、パイプラインに異なる既定値を設定します。

既定のカタログと既定のスキーマは、コード内のカタログまたはスキーマでデータセットを修飾しない場合に、データセットの読み取りまたは書き込みを行う場所です。詳細については、「 Azure Databricks のデータベースオブジェクト」を参照してください。
次のいずれかのオプションを選択して、パイプラインを作成する任意のオプションを選択します。
- SQL のサンプルコードから始めて、SQL のサンプルコード を含む新しいパイプラインとフォルダー構造を作成します。
- Python のサンプルコードから始めて、Python のサンプルコード を含む新しいパイプラインとフォルダー構造を作成します。
- 1 つの変換から始めて 、新しい空白のコードファイルを使用して、新しいパイプラインとフォルダー構造を作成します。
- 既存の資産を追加 して、ワークスペース内の exisitng コードファイルに関連付けることができるパイプラインを作成します。
ETL パイプラインには、SQL と Python の両方のソースコードファイルを含めることができます。新しいパイプラインを作成し、サンプルコードの言語を選択する場合、言語は既定でパイプラインに含まれるサンプルコードに対してのみ使用されます。
選択すると、新しく作成されたパイプラインにリダイレクトされます。

ETL パイプラインは、次の既定の設定で作成されます。
- Unity カタログ
- 現在のチャネル
- サーバーレスコンピューティング
- 開発モードがオフです。この設定は、パイプラインのスケジュールされた実行にのみ影響します。エディターからパイプラインを実行すると、常に既定で開発モードが使用されます。
これらの設定は、パイプラインツールバーから調整できます。

または、ワークスペースブラウザーから ETL パイプラインを作成することもできます。

左側のパネルで [ ワークスペース ] をクリックします。
Git フォルダーを含む任意のフォルダーを選択します。
右上隅にある [ 作成 ] をクリックし、[ ETL パイプライン] をクリックします。

ETL パイプラインは、ジョブとパイプラインページから作成することもできます。

ワークスペースで、[ワークフロー] アイコンをクリックサイドバーのジョブとパイプライン。
[ 新規] の [ ETL パイプライン] をクリックします。

既存の ETL パイプラインを開く

Lakeflow パイプラインエディターで既存の ETL パイプラインを開くには、複数の方法があります。

パイプラインに関連付けられているソースファイルを開きます。
1. サイドパネルで [ ワークスペース ] をクリックします。
2. パイプラインのソースコードファイルがあるフォルダーに移動します。
3. ソースコードファイルをクリックして、エディターでパイプラインを開きます。
最近編集したパイプラインを開きます。
- エディターから、最近編集した他のパイプラインに移動するには、資産ブラウザーの上部にあるパイプラインの名前をクリックし、表示される最近使用した一覧から別のパイプラインを選択します。
- エディターの外部から、左側のサイドバーの [ 最近使った 情報] ページから、パイプラインまたはパイプラインのソースコードとして構成されたファイルを開きます。
製品全体でパイプラインを表示する場合は、パイプラインの編集を選択できます。
- パイプライン監視ページで、[鉛筆] アイコンをクリック パイプラインを編集します。
- 左側のサイドバーの [ ジョブの実行 ] ページで、[ ジョブとパイプライン ] タブをクリックし、[ をクリックし、[ パイプラインの編集] をクリックします。
- ジョブを編集してパイプラインタスクを追加するときに、[パイプライン] でパイプラインを選択すると、[ ボタンをクリックできます。
アセットブラウザーで [すべてのファイル ] を参照し、別のパイプラインからソースコードファイルを開くと、エディターの上部にバナーが表示され、関連付けられているパイプラインを開くよう求められます。

パイプライン資産ビューワー

パイプラインを編集する場合、左側のワークスペースサイドバーでは、 パイプライン資産ブラウザーと呼ばれる特別なモードが使用されます。既定では、パイプライン資産ブラウザーは、パイプラインルートと、ルート内のフォルダーとファイルに焦点を当てています。すべての ファイル を表示して、パイプラインのルート外のファイルを表示することもできます。特定のパイプラインの編集中にパイプラインエディターで開かれたタブは記憶され、別のパイプラインに切り替えると、そのパイプラインを最後に編集したときにタブが開きます。

注

エディターには、SQL ファイルを編集するためのコンテキスト ( Databricks SQL エディターと呼ばれます) と、SQL ファイルまたはパイプラインファイルではないワークスペースファイルを編集するための一般的なコンテキストもあります。これらの各コンテキストは、そのコンテキストを最後に使用した時点で開いたタブを記憶し、復元します。左サイドバーの上部からコンテキストを切り替えることができます。ヘッダーをクリックして、ワークスペース、SQL エディター、または最近編集したパイプラインを選択します。

エディターコンテキストの切り替え

ワークスペースブラウザーページからファイルを開くと、そのファイルの対応するエディターで開きます。ファイルがパイプラインに関連付けられている場合、これは Lakeflow Pipelines エディターです。

パイプラインの一部ではないファイルを開き、パイプラインコンテキストを保持するには、資産ブラウザーの [ すべてのファイル ] タブからファイルを開きます。

パイプライン資産ブラウザーには、次の 2 つのタブがあります。

パイプライン: パイプラインに関連付けられているすべてのファイルを見つけることができます。作成、削除、名前の変更、フォルダーへの整理を行うことができます。このタブには、パイプライン構成のショートカットと、最近の実行のグラフィカルビューも含まれています。
すべてのファイル: 他のすべてのワークスペースアセットは、ここで入手できます。これは、パイプラインに追加するファイルを検索したり、パイプラインに関連する他のファイル (Databricks アセットバンドルを定義する YAML ファイルなど) を表示したりするのに役立ちます。

パイプラインアセットブラウザー

パイプラインには、次の種類のファイルを含めることができます。

ソースコードファイル: これらのファイルは、パイプラインのソースコード定義の一部であり、「 設定」で確認できます。 Databricks では、常にソースコードファイルをパイプラインルートフォルダー内に格納することをお勧めします。それ以外の場合は、ブラウザーの下部にある外部ファイルセクションに表示され、機能セットが少なくなります。
ソースコード以外のファイル: これらのファイルはパイプラインルートフォルダー内に格納されますが、パイプラインのソースコード定義の一部ではありません。

Important

パイプラインのファイルとフォルダーを管理するには、[ パイプライン ] タブの下にあるパイプライン資産ブラウザーを使用する必要があります。これにより、パイプライン設定が正しく更新されます。ワークスペースブラウザーまたは [すべての ファイル] タブからファイルやフォルダーを移動または名前変更すると、パイプライン構成が中断され、[ 設定] で手動で解決する必要があります。

ルートフォルダー

パイプライン資産ブラウザーは、パイプラインルートフォルダーに固定されます。新しいパイプラインを作成すると、パイプラインルートフォルダーがユーザーのホームフォルダーに作成され、パイプライン名と同じ名前になります。

パイプライン資産ブラウザーでルートフォルダーを変更できます。これは、フォルダーにパイプラインを作成し、後ですべてを別のフォルダーに移動する場合に便利です。たとえば、通常のフォルダーにパイプラインを作成し、バージョン管理のためにソースコードを Git フォルダーに移動するとします。

をクリックします。ルートフォルダーのオーバーフローメニュー。
新しいルートフォルダーを構成をクリックします。
[ パイプラインルートフォルダー ] で [ ] をクリックし、パイプラインルートフォルダーとして別のフォルダーを選択します。
[保存] をクリックします。

パイプラインのルートフォルダーを変更する

Kebab メニューアイコンで、ルートフォルダーの [ルートフォルダーの名前を変更] をクリックして、フォルダー名を変更することもできます。ここで、[ ルートフォルダーの移動 ] をクリックして、ルートフォルダーを Git フォルダーに移動することもできます。

設定でパイプラインルートフォルダーを変更することもできます。

[設定]をクリックします。
コード資産 の パスの設定 をクリックします。
[ をクリックして、[ パイプラインルートフォルダー] の下のフォルダーを変更します。
[保存] をクリックします。

注

パイプラインルートフォルダーを変更すると、前のルートフォルダー内のファイルが外部ファイルとして表示されるため、パイプライン資産ブラウザーによって表示されるファイル一覧が影響を受けます。

ルートフォルダーのない既存のパイプライン

従来のノートブック編集エクスペリエンスを使用して作成された既存のパイプラインでは、ルートフォルダーは構成されません。ルートフォルダーが構成されていないパイプラインを開くと、ルートフォルダーを作成し、その中のソースファイルを整理するように求められます。

これを閉じて、ルートフォルダーを設定せずにパイプラインの編集を続行できます。

後でパイプラインのルートフォルダーを構成する場合は、次の手順に従います。

パイプライン資産ブラウザーで、[ 構成] をクリックします。
[ をクリックして、[パイプラインルートフォルダー] の下にある ルートフォルダーを選択します。
[保存] をクリックします。

パイプラインルートフォルダーなし

既定のフォルダー構造

新しいパイプラインを作成すると、既定のフォルダー構造が作成されます。これは、次に示すように、パイプラインソースファイルとソース以外のコードファイルを整理するための推奨される構造です。

このフォルダー構造には、少数のサンプルコードファイルが作成されます。

フォルダー名	これらの種類のファイルに推奨される場所
`<pipeline_root_folder>`	パイプラインのすべてのフォルダーとファイルを含むルートフォルダー。
`transformations`	Python やテーブル定義を含む SQL コードファイルなどのソースコードファイル。
`explorations`	探索的なデータ分析に使用されるノートブック、クエリ、コードファイルなど、ソースコード以外のファイル。
`utilities`	他のコードファイルからインポートできる Python モジュールを含むソースコード以外のファイル。サンプルコードの言語として SQL を選択した場合、このフォルダーは作成されません。

フォルダー名の名前を変更したり、ワークフローに合わせて構造を変更したりできます。新しいソースコードフォルダーを追加するには、次の手順に従います。

パイプライン資産ブラウザーで [ 追加] をクリックします。
[ パイプラインソースコードフォルダーの作成] をクリックします。
フォルダー名を入力し、[ 作成] をクリックします。

ソースコードファイル

ソースコードファイルは、パイプラインのソースコード定義の一部です。パイプラインを実行すると、これらのファイルが評価されます。ソースコード定義のファイルとフォルダーの一部には、ミニパイプラインアイコンが重ね合わされた特別なアイコンがあります。

新しいソースコードファイルを追加するには、次の手順に従います。

パイプライン資産ブラウザーで [ 追加] をクリックします。
[ 変換] をクリックします。
ファイルの名前を入力し、言語として Python または SQL を選択します。
Create をクリックしてください。

[ Kebab] メニューアイコンをクリックすることもできます。パイプライン資産ブラウザー内の任意のフォルダーに対して、ソースコードファイルを追加します。

ソースコードの transformations フォルダーは、新しいパイプラインを作成するときに既定で作成されます。このフォルダーは、パイプラインテーブル定義を含む Python または SQL コードファイルなどのパイプラインソースコードに推奨される場所です。

ソースコード以外のファイル

ソースコード以外のファイルは、パイプラインルートフォルダー内に格納されますが、パイプラインのソースコード定義の一部ではありません。これらのファイルは、パイプラインの実行時には評価されません。ソースコード以外のファイルを外部ファイルにすることはできません。

これは、ソースコードと共に格納するパイプラインでの作業に関連するファイルに使用できます。例えば次が挙げられます。

Lakeflow 以外の Spark 宣言型パイプラインで実行されるアドホック探索に使用するノートブックは、パイプラインのライフサイクル外で計算されます。
ソースコードファイル内にこれらのモジュールを明示的にインポートしない限り、ソースコードで評価されない Python モジュール。

ソースコード以外の新しいファイルを追加するには、次の手順に従います。

パイプライン資産ブラウザーで [ 追加] をクリックします。
[ 探索 ] または [ ユーティリティ] をクリックします。
ファイルの名前を入力します。
Create をクリックしてください。

[ Kebab] メニューアイコンをクリックすることもできます。パイプラインルートフォルダーまたはソースコード以外のファイルの場合は、ソースコード以外のファイルをフォルダーに追加します。

新しいパイプラインを作成すると、ソースコード以外のファイル用の次のフォルダーが既定で作成されます。

フォルダー名	Description
`explorations`	このフォルダーは、ノートブック、クエリ、ダッシュボード、その他のファイルにとって推奨される場所です。そして、通常はパイプラインの実行ライフサイクル外で行うように、Lakeflow 以外の Spark 宣言型パイプラインで実行できます。
`utilities`	このフォルダーは、親フォルダーがルートフォルダーの下に階層的に存在する限り、 `from <filename> import`として表される直接インポートを介して他のファイルからインポートできる Python モジュールに推奨される場所です。

ルートフォルダーの外側にある Python モジュールをインポートすることもできますが、その場合は、Python コード内の sys.path にフォルダーパスを追加する必要があります。

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

外部ファイル

パイプラインブラウザーの [外部ファイル ] セクションには、ルートフォルダーの外部にあるソースコードファイルが表示されます。

transformations フォルダーなどのルートフォルダーに外部ファイルを移動するには、次の手順に従います。

アセットブラウザー内のファイルでをクリックしてから、[移動] をクリックします。
ファイルを移動するフォルダーを選択し、[ 移動] をクリックします。

複数のパイプラインに関連付けられているファイル

ファイルが複数のパイプラインに関連付けられている場合、ファイルのヘッダーにバッジが表示されます。関連付けられたパイプラインの数があり、他のパイプラインに切り替えできます。

[すべてのファイル] セクション

[パイプライン] セクションに加えて、[すべてのファイル] セクションがあり、ワークスペース内の任意のファイルを開くことができます。ここでは次を実行できます。

Lakeflow Pipelines エディターを終了せずに、ルートフォルダーの外部にあるファイルをタブで開きます。
別のパイプラインのソースコードファイルに移動して開きます。エディターでファイルが開き、エディターのフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
パイプラインのルートフォルダーにファイルを移動します。
パイプラインのソースコード定義にルートフォルダーの外部にあるファイルを含めます。

パイプラインソースファイルを編集する

ワークスペースブラウザーまたはパイプライン資産ブラウザーからパイプラインソースファイルを開くと、Lakeflow Pipelines エディターのエディタータブで開きます。より多くのファイルを開くと、別々のタブが開き、複数のファイルを一度に編集できます。

注

ワークスペースブラウザーからパイプラインに関連付けられていないファイルを開くと、エディターが別のコンテキスト (一般的な ワークスペース エディターまたは SQL ファイルの場合は SQL エディター) で開かれます。

パイプライン資産ブラウザーの [すべてのファイル ] タブからパイプライン以外のファイルを開くと、パイプラインコンテキストの新しいタブで開きます。

パイプラインソースコードには、複数のファイルが含まれています。既定では、ソースファイルはパイプライン資産ブラウザーの変換フォルダーにあります。ソースコードファイルには、Python (*.py) または SQL (*.sql) ファイルを指定できます。ソースには、Python ファイルと SQL ファイルの両方を 1 つのパイプラインに含めることができます。また、あるファイル内のコードは、別のファイルで定義されているテーブルまたはビューを参照できます。

tranformations フォルダーに markdown (*.md) ファイルを含めることもできます。 Markdown ファイルはドキュメントやメモに使用できますが、パイプラインの更新を実行する場合は無視されます。

次の機能は、Lakeflow Pipelines エディターに固有です。

パイプラインコードを編集する

接続 - サーバーレスコンピューティングまたはクラシックコンピューティングに接続してパイプラインを実行します。パイプラインに関連付けられているすべてのファイルは同じコンピューティング接続を使用するため、接続したら、同じパイプライン内の他のファイルに接続する必要はありません。コンピューティングオプションの詳細については、「コンピューティング構成オプション」を参照してください。

探索的ノートブックなどのパイプライン以外のファイルの場合、接続オプションは使用できますが、その個々のファイルにのみ適用されます。
ファイルの実行 - このソースファイルで定義されているテーブルを更新するコードを実行します。次のセクションでは、パイプラインコードを実行するさまざまな方法について説明します。
編集 - Databricks アシスタントを使用して、ファイル内のコードを編集または追加します。
クイック修正 - コードにエラーがある場合は、アシスタントを使用してエラーを修正します。

下部のパネルも、現在のタブに基づいて調整されます。下部パネルでのパイプライン情報の表示は常に使用できます。 SQL エディターファイルなどのパイプラインに関連付けられていないファイルも、別のタブの下部パネルに出力を表示します。次の図は、パイプライン情報を表示するか、選択したノートブックの情報を表示するかの下のパネルを切り替える垂直タブセレクターを示しています。

探索的ノートブック用の垂直タブセレクター

パイプラインコードを実行する

パイプラインコードを実行するには、次の 4 つのオプションがあります。

パイプライン内のすべてのソースコードファイルを実行する

[ パイプラインの実行 ] または [ 完全なテーブル更新でパイプライン を実行] をクリックして、パイプラインソースコードとして定義されているすべてのファイル内のすべてのテーブル定義を実行します。更新の種類の詳細については、「パイプライン更新セマンティクス」を参照してください。

[ ドライラン ] をクリックして、データを更新せずにパイプラインを検証することもできます。
1 つのファイルでコードを実行する

[ ファイルの実行 ] または [ 完全なテーブル更新でファイルを 実行] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。パイプライン内の他のファイルは評価されません。

このオプションは、ファイルの編集と反復処理をすばやく行う場合のデバッグに役立ちます。コードを 1 つのファイルで実行する場合にのみ、副作用があります。
- 他のファイルが評価されない場合、それらのファイル内のエラーは見つかりません。
- 他のファイルで具体化されたテーブルでは、最新のソースデータがある場合でも、テーブルの最新の具体化が使用されます。
- 参照テーブルがまだ具体化されていない場合は、エラーが発生する可能性があります。
- DAG は、具体化されていない他のファイルのテーブルに対して正しくないか、不整合である可能性があります。 Azure Databricks はグラフを正しく保つために最善を尽くしますが、他のファイルを評価しません。
ファイルのデバッグと編集が完了したら、パイプラインを運用環境に配置する前に、パイプラインがエンドツーエンドで動作することを確認するために、パイプライン内のすべてのソースコードファイルを実行することをお勧めします。
1 つのテーブルのコードを実行する

ソースコードファイル内のテーブルの定義の横にある [テーブルの実行] アイコン [テーブルの実行] アイコンをクリックし、ドロップダウンから [テーブルの更新] または [テーブル全体の更新] を選択します。 1 つのテーブルに対してコードを実行すると、コードを 1 つのファイルで実行するのと同様の副作用があります。

注

1 つのテーブルのコードの実行は、ストリーミングテーブルと具体化されたビューで使用できます。シンクとビューはサポートされていません。
一連のテーブルのコードを実行する

DAG からテーブルを選択して、実行するテーブルの一覧を作成できます。 DAG 内のテーブルにカーソルを合わせ、[ をクリックして、[ 更新するテーブルの選択] を選択します。更新するテーブルを選択したら、DAG の下部にある [ 実行 ] または [ 完全更新で実行 ] オプションを選択します。

パイプライングラフ、有向非循環グラフ (DAG)

パイプライン内のすべてのソースコードファイルを実行または検証すると、パイプライン グラフと呼ばれる有向非循環グラフ (DAG) が表示されます。グラフには、テーブルの依存関係グラフが表示されます。各ノードには、検証済み、実行中、エラーなど、パイプラインのライフサイクルに沿って異なる状態があります。

有向非循環グラフ (DAG)

右側のパネルでグラフアイコンをクリックすると、グラフのオンとオフを切り替えることができます。グラフを最大化することもできます。右下には、ズームオプションやスライダーアイコンなど、追加のオプションがあります。グラフを縦または横のレイアウトで表示するためのその他のオプション。

ノードの上にマウスポインターを置くと、クエリの更新などのオプションを含むツールバーが表示されます。ノードを右クリックすると、コンテキストメニューで同じオプションが表示されます。

ノードをクリックすると、データのプレビューとテーブル定義が表示されます。ファイルを編集すると、そのファイルで定義されているテーブルがグラフで強調表示されます。

データプレビュー

データプレビューセクションには、選択したテーブルのサンプルデータが表示されます。

有向非循環グラフ (DAG) 内のノードをクリックすると、テーブルのデータのプレビューが表示されます。

テーブルが選択されていない場合は、テーブル セクションに移動し、[データプレビューの表示]をクリックします。テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。

テーブルデータをプレビューする際に、その場でデータをフィルター処理したり並べ替えたりすることができます。より複雑な分析を行う場合は、 Explorations フォルダーでノートブックを使用または作成できます (既定のフォルダー構造を保持していると仮定します)。既定では、このフォルダー内のソースコードはパイプラインの更新中に実行されないため、パイプラインの出力に影響を与えずにクエリを作成できます。

実行の分析情報

エディターの下部にあるパネルで、最新のパイプライン更新に関するテーブル実行の分析情報を確認できます。

Panel	Description
Tables	状態とメトリックを含むすべてのテーブルを一覧表示します。 1 つのテーブルを選択すると、そのテーブルのメトリックとパフォーマンスと、データプレビューのタブが表示されます。
Performance	このパイプライン内のすべてのフローのクエリ履歴とプロファイル。実行中と実行後に、実行メトリックと詳細なクエリプランにアクセスできます。詳細については、パイプラインのアクセスクエリ履歴を参照してください。
[問題] パネル	パネルをクリックすると、パイプラインのエラーと警告が簡単に表示されます。エントリをクリックして詳細を表示し、エラーが発生したコード内の場所に移動します。エラーが現在表示されているファイル以外のファイルにある場合は、エラーがあるファイルにリダイレクトされます。 [ 詳細の表示 ] をクリックすると、対応するイベントログエントリが表示され、詳細が表示されます。 [ ログの表示 ] をクリックして、完全なイベントログを表示します。コードの特定の部分に関連するエラーについては、コード接辞付きエラーインジケーターが表示されます。詳細を表示するには、エラーアイコンをクリックするか、赤い線の上にマウスポインターを置きます。詳細情報が表示されたポップアップが表示されます。その後、[ クイック修正 ] をクリックして、エラーのトラブルシューティングを行う一連のアクションを表示できます。
イベントログ	最後のパイプライン実行中にトリガーされたすべてのイベント。 [ ログの表示 ] または問題トレイのエントリをクリックします。

パイプラインの構成

パイプラインエディターからパイプラインを構成できます。パイプラインの設定、スケジュール、またはアクセス許可を変更できます。

これらのそれぞれには、エディターのヘッダーのボタンから、またはアセットブラウザー (左側のサイドバー) のアイコンからアクセスできます。

設定 (または資産ブラウザーでを選択):

パイプラインの設定は、全般情報、ルートフォルダーとソースコードの構成、コンピューティング構成、通知、詳細設定など、設定パネルから編集できます。
スケジュール (または資産ブラウザーでを選択):

スケジュールダイアログから、パイプラインの 1 つ以上のスケジュールを作成できます。たとえば、毎日実行する場合は、ここで設定できます。選択したスケジュールに従ってパイプラインを実行するジョブが作成されます。新しいスケジュールを追加したり、スケジュールダイアログから既存のスケジュールを削除したりできます。
共有 (または、アセットブラウザーのメニューで、[ を選択します)。

パイプラインのアクセス許可ダイアログから、ユーザーとグループのパイプラインに対するアクセス許可を管理できます。

イベントログ

パイプラインのイベントログを Unity カタログに発行できます。既定では、パイプラインのイベントログが UI に表示され、所有者がクエリを実行するためにアクセスできます。

[設定] を開きます。
をクリックします。[詳細設定] の横にある矢印をクリックします。
[ 詳細設定の編集] をクリックします。
[ イベントログ] で、[ カタログに発行] をクリックします。
イベントログの名前、カタログ、およびスキーマを指定します。
[保存] をクリックします。

パイプラインイベントは、指定したテーブルに発行されます。

パイプラインイベントログの使用の詳細については、イベントログのクエリを参照してください。

パイプライン環境

[設定] で依存関係を追加することで、ソースコードの環境を作成できます。

[設定] を開きます。
[ 環境] で、[ 環境の編集] をクリックします。
依存関係を追加して、依存関係をrequirements.txt ファイルに追加する場合と同様に追加します。依存関係の詳細については、「ノートブックへの依存関係の追加」を参照してください。

Databricks では、 ==でバージョンをピン留めすることをお勧めします。「PyPi パッケージ」をご覧ください。

この環境は、パイプライン内のすべてのソースコードファイルに適用されます。

通知

パイプライン設定を使用して通知を追加できます。

[設定] を開きます。
[通知] セクションで、[通知の追加] をクリックします。
1 つ以上のメールアドレスと、送信するイベントを追加します。
[通知の追加] をクリックします。

注

Python イベントフックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。

パイプラインの監視

Azure Databricks には、実行中のパイプラインを監視する機能も用意されています。エディターには、最新の実行に関する結果と実行の分析情報が表示されます。パイプラインを対話的に開発しながら効率的に反復処理できるように最適化されています。

パイプライン監視ページでは、実行履歴を表示できます。これは、ジョブを使用してスケジュールに従ってパイプラインが実行されている場合に便利です。

注

既定の監視エクスペリエンスと、更新されたプレビュー監視エクスペリエンスがあります。次のセクションでは、プレビュー監視エクスペリエンスを有効または無効にする方法について説明します。両方のエクスペリエンスの詳細については、「 UI でのパイプラインの監視」を参照してください。

監視エクスペリエンスは、ワークスペースの左側にある [ジョブとパイプライン ] ボタンから使用できます。パイプライン資産ブラウザーで実行結果をクリックして、エディターから監視ページに直接移動することもできます。

エディターから監視ページへのリンク

監視ページの詳細については、「 UI でのパイプラインの監視」を参照してください。監視 UI には、UI のヘッダーから [パイプラインの編集] を選択して、Lakeflow パイプライン エディターに戻る機能が含まれています。

Lakeflow パイプラインエディターと更新された監視を有効にする

Lakeflow Pipelines Editor プレビューは既定で有効になっています。無効にすることも、次の手順で再度有効にすることもできます。 Lakeflow Pipelines Editor プレビューが有効になっている場合は、更新された監視エクスペリエンス (プレビュー) を有効にすることもできます。

ワークスペースの Lakeflow Pipelines エディター オプションを設定して、プレビューを有効にする必要があります。オプションを編集する方法の詳細については、「 Azure Databricks プレビューの管理」を参照してください。

プレビューが有効になったら、複数の方法で Lakeflow Pipelines エディターを有効にすることができます。

新しい ETL パイプラインを作成するときに、Lakeflow パイプラインエディターのトグルを使用して、Lakeflow Spark 宣言パイプラインのエディターを有効にします。

パイプラインの詳細設定ページは、エディターを初めて有効にするときに使用されます。簡略化されたパイプライン作成ウィンドウは、次回新しいパイプラインを作成するときに使用されます。
既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで Lakeflow Pipelines Editor トグルを有効にします。パイプラインの監視ページに移動し、[ 設定] をクリックして Lakeflow パイプラインエディターを有効にすることもできます。
ユーザー設定から Lakeflow Pipelines エディターを有効にすることができます。
1. ワークスペースの右上の領域でユーザーバッジをクリックし、[設定と開発者] をクリックします。
2. Lakeflow パイプラインエディターを有効にします。

Lakeflow パイプラインエディターの切り替えを有効にすると、すべての ETL パイプラインで既定で Lakeflow パイプラインエディターが使用されます。 Lakeflow Pipelines エディターの機能は、エディター内でオンとオフを切り替えることができます。

注

新しいパイプラインエディターを無効にした場合は、オフにした理由を説明するフィードバックを残しておくと便利です。新しいエディターにフィードバックがある場合は、トグルに [ フィードバックの送信 ] ボタンがあります。

新しいパイプライン監視ページを有効にする

Important

この機能はパブリックプレビュー段階です。

Lakeflow Pipelines Editor プレビューの一部として、パイプラインの新しいパイプライン監視ページを有効にすることもできます。パイプライン監視ページを有効にするには、Lakeflow Pipelines Editor プレビューを有効にする必要があります。エディタープレビューが有効になっている場合、新しい監視ページも既定で有効になります。

[ ジョブとパイプライン] をクリックします。
パイプラインの名前をクリックすると、パイプラインの詳細が表示されます。
ページの上部で、[ 新しいパイプライン ] ページのトグルを使用して、更新された監視 UI を有効にします。

制限事項と既知の問題

Lakeflow Spark 宣言型パイプラインの ETL パイプラインエディターの次の制限事項と既知の問題を参照してください。

これらのファイルまたはノートブックはパイプラインのソースコード定義の一部ではないため、 explorations フォルダーまたはノートブックでファイルを開いて開始した場合、ワークスペースブラウザーのサイドバーはパイプラインに集中しません。

ワークスペースブラウザーでパイプラインフォーカスモードに入るために、パイプラインに関連付けられているファイルを開きます。
データプレビューは、通常のビューではサポートされていません。
Python モジュールは、ルートフォルダー内にあるか、 sys.path上にある場合でも、UDF 内から見つかりません。これらのモジュールにアクセスするには、UDF 内から sys.path へのパスを追加します。次に例を示します。 sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))
%pip install は、ファイル (新しいエディターを使用した既定の資産の種類) ではサポートされていません。設定に依存関係を追加できます。パイプライン環境を参照してください。

別の方法として、パイプラインに関連付けられたノートブックの%pip installをソースコード定義で引き続き使用することもできます。

FAQ

ソースコードにノートブックではなくファイルを使用する理由

ノートブックのセル単位での実行は、パイプラインと互換性がありません。ノートブックの標準機能は、パイプラインを操作するときに無効または変更されるため、ノートブックの動作に慣れているユーザーは混乱します。

Lakeflow Pipelines エディターでは、ファイルエディターがパイプラインのファーストクラスエディターの基盤として使用されます。機能は、さまざまな動作で使い慣れた機能をオーバーロードするのではなく、テーブル実行アイコンなどのパイプラインを明示的に対象とします。
ノートブックをソースコードとして引き続き使用できますか?

はい、できます。ただし、テーブル実行アイコンやファイルなどの一部の機能は存在しません。

ノートブックを使用する既存のパイプラインがある場合でも、新しいエディターで動作します。ただし、Databricks では、新しいパイプラインのファイルに切り替えることをお勧めします。
新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?

既存のソースコードファイルを新しいパイプラインに追加できます。既存のファイルを含むフォルダーを追加するには、次の手順に従います。
1. [設定]をクリックします。
2. [ ソースコード ] の [ パスの構成] をクリックします。
3. [ パスの追加] をクリックし、既存のファイルのフォルダーを選択します。
4. [保存] をクリックします。
個々のファイルを追加することもできます。
1. パイプライン資産ブラウザーで [ すべてのファイル ] をクリックします。
2. ファイルに移動し、[ をクリックし、[ パイプラインに含める] をクリックします。
これらのファイルをパイプラインルートフォルダーに移動することを検討してください。パイプラインルートフォルダーの外側にある場合は、[ 外部ファイル ] セクションに表示されます。
Git でパイプラインソースコードを管理できますか?

最初にパイプラインを作成するときに Git フォルダーを選択することで、Git でパイプラインソースを管理できます。

注

Git フォルダーでソースを管理すると、ソースコードのバージョン管理が追加されます。ただし、構成をバージョン管理するために、Databricks では Databricks Asset Bundles を使用して、Git (または別のバージョン管理システム) に格納できるバンドル構成ファイルでパイプライン構成を定義することをお勧めします。詳細については、「 Databricks アセットバンドルとは」を参照してください。

最初に Git フォルダーにパイプラインを作成しなかった場合は、ソースを Git フォルダーに移動できます。 Databricks では、エディターアクションを使用してルートフォルダー全体を Git フォルダーに移動することをお勧めします。これにより、それに応じてすべての設定が更新されます。ルートフォルダーを参照してください。

ルートフォルダーをパイプライン資産ブラウザーの Git フォルダーに移動するには:
1. ルートフォルダーのをクリックします。
2. [ ルートフォルダーの移動] をクリックします。
3. ルートフォルダーの新しい場所を選択し、[ 移動] をクリックします。
詳細については、「ルートフォルダー」セクションを参照してください。

移動後、ルートフォルダーの名前の横に使い慣れた Git アイコンが表示されます。

Important

パイプラインルートフォルダーを移動するには、パイプライン資産ブラウザーと上記の手順を使用します。他の方法で移動すると、パイプラインの構成が中断され、[ 設定] で正しいフォルダーパスを手動で構成する必要があります。
同じルートフォルダーに複数のパイプラインを含めることができますか?

可能ですが、Databricks ではルートフォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。
ドライランはいつ実行すればよいですか?

[ Dry run ]\(ドライラン\) をクリックして、テーブルを更新せずにコードを確認します。
一時的なビューを使用する必要がある場合と、コードで具体化されたビューを使用する必要があるタイミング

データを具体化しない場合は、一時ビューを使用します。たとえば、これは、カタログに登録されているストリーミングテーブルまたは具体化されたビューを使用して具体化する準備が整う前にデータを準備する一連の手順のステップです。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-10

次の方法で共有

Lakeflow パイプライン エディターを使用して ETL パイプラインを開発およびデバッグする

Lakeflow パイプライン エディターとは

Lakeflow パイプライン エディター UI の概要

新しい ETL パイプラインを作成する

既存の ETL パイプラインを開く

パイプライン資産ビューワー

ルート フォルダー

ルート フォルダーのない既存のパイプライン

既定のフォルダー構造

ソース コード ファイル

ソース コード以外のファイル

外部ファイル

複数のパイプラインに関連付けられているファイル

[すべてのファイル] セクション

パイプライン ソース ファイルを編集する

パイプライン コードを実行する

パイプライン グラフ、有向非循環グラフ (DAG)

データプレビュー

実行の分析情報

パイプラインの構成

イベント ログ

パイプライン環境

通知

パイプラインの監視

Lakeflow パイプライン エディターと更新された監視を有効にする

新しいパイプライン監視ページを有効にする

制限事項と既知の問題

FAQ

フィードバック

その他のリソース

Lakeflow パイプラインエディターを使用して ETL パイプラインを開発およびデバッグする

Lakeflow パイプラインエディターとは

Lakeflow パイプラインエディター UI の概要

ルートフォルダー

ルートフォルダーのない既存のパイプライン

ソースコードファイル

ソースコード以外のファイル

パイプラインソースファイルを編集する

パイプラインコードを実行する

パイプライングラフ、有向非循環グラフ (DAG)

イベントログ

Lakeflow パイプラインエディターと更新された監視を有効にする