Important
この機能は パブリック プレビュー段階です。
この記事では、Lakeflow Pipelines エディターを使用して、Lakeflow Spark 宣言パイプライン (SDP) で ETL (抽出、変換、読み込み) パイプラインを開発およびデバッグする方法について説明します。
注
Lakeflow パイプライン エディターは既定で有効になっています。 オフにすることも、オフにした場合は再度有効にすることもできます。 「Lakeflow パイプライン エディターを有効にする」と「更新された監視」を参照してください。
Lakeflow パイプライン エディターとは
Lakeflow パイプライン エディターは、パイプラインを開発するために構築された IDE です。 すべてのパイプライン開発タスクが 1 つのサーフェイスに結合され、コード優先ワークフロー、フォルダーベースのコード編成、選択的実行、データ プレビュー、パイプライン グラフがサポートされます。 Azure Databricks プラットフォームと統合され、バージョン管理、コード レビュー、スケジュールされた実行も可能になります。
Lakeflow パイプライン エディター UI の概要
次の図は、Lakeflow パイプライン エディターを示しています。
この図は、次の機能を示しています。
- パイプライン資産ブラウザー: パイプライン資産を作成、削除、名前変更、および整理します。 パイプライン構成へのショートカットも含まれています。
- タブを含む複数ファイル コード エディター: パイプラインに関連付けられている複数のコード ファイル間で動作します。
- パイプライン固有のツール バー: パイプライン構成オプションが含まれており、 パイプライン レベルの実行アクションがあります。
- 対話型有向非循環グラフ (DAG): テーブルの概要を取得し、データ プレビューの下部バーを開き、テーブル関連のその他のアクションを実行します。
- データ プレビュー: ストリーミング テーブルと具体化されたビューのデータを検査します。
- テーブル レベルの実行分析情報: パイプライン内のすべてのテーブルまたは 1 つのテーブルの実行分析情報を取得します。 分析情報は、最新のパイプライン実行を参照します。
- 問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。 コード付きエラーインジケーターを補完します。
- 選択的実行: コード エディターには、ファイルの 実行 アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
- 既定のパイプライン フォルダー構造: 新しいパイプラインには、定義済みのフォルダー構造と、パイプラインの開始点として使用できるサンプル コードが含まれています。
- パイプラインの作成の簡略化: 既定でテーブルを作成する必要がある名前、カタログ、スキーマを指定し、既定の設定を使用してパイプラインを作成します。 後でパイプライン エディターのツール バーから設定を調整できます。
新しい ETL パイプラインを作成する
Lakeflow Pipelines Editor を使用して新しい ETL パイプラインを作成するには、次の手順に従います。
サイドバーの上部にある [プラス] アイコンをクリック
[新規 ] を選択し、[
ETL パイプライン。
上部には、パイプラインに一意の名前を付けることができます。
名前のすぐ下に、選択された既定のカタログとスキーマが表示されます。 これらを変更して、パイプラインに異なる既定値を設定します。
既定の カタログ と既定の スキーマ は、コード内のカタログまたはスキーマでデータセットを修飾しない場合に、データセットの読み取りまたは書き込みを行う場所です。 詳細については、「 Azure Databricks のデータベース オブジェクト 」を参照してください。
次のいずれかのオプションを選択して、パイプラインを作成する任意のオプションを選択します。
- SQL のサンプル コードから始めて、SQL のサンプル コード を含む新しいパイプラインとフォルダー構造を作成します。
- Python のサンプル コードから始めて、Python のサンプル コード を含む新しいパイプラインとフォルダー構造を作成します。
- 1 つの変換から始めて 、新しい空白のコード ファイルを使用して、新しいパイプラインとフォルダー構造を作成します。
- 既存の資産を追加 して、ワークスペース内の exisitng コード ファイルに関連付けることができるパイプラインを作成します。
ETL パイプラインには、SQL と Python の両方のソース コード ファイルを含めることができます。 新しいパイプラインを作成し、サンプル コードの言語を選択する場合、言語は既定でパイプラインに含まれるサンプル コードに対してのみ使用されます。
選択すると、新しく作成されたパイプラインにリダイレクトされます。
ETL パイプラインは、次の既定の設定で作成されます。
- Unity カタログ
- 現在のチャネル
- サーバーレス コンピューティング
- 開発モードがオフです。 この設定は、パイプラインのスケジュールされた実行にのみ影響します。 エディターからパイプラインを実行すると、常に既定で開発モードが使用されます。
これらの設定は、パイプライン ツール バーから調整できます。
または、ワークスペース ブラウザーから ETL パイプラインを作成することもできます。
- 左側のパネルで [ ワークスペース ] をクリックします。
- Git フォルダーを含む任意のフォルダーを選択します。
- 右上隅にある [ 作成 ] をクリックし、[ ETL パイプライン] をクリックします。
ETL パイプラインは、ジョブとパイプライン ページから作成することもできます。
- ワークスペースで、[ワークフロー] アイコンをクリック
サイドバーのジョブとパイプライン。
- [ 新規] の [ ETL パイプライン] をクリックします。
既存の ETL パイプラインを開く
Lakeflow パイプライン エディターで既存の ETL パイプラインを開くには、複数の方法があります。
パイプラインに関連付けられているソース ファイルを開きます。
- サイド パネルで [ ワークスペース ] をクリックします。
- パイプラインのソース コード ファイルがあるフォルダーに移動します。
- ソース コード ファイルをクリックして、エディターでパイプラインを開きます。
最近編集したパイプラインを開きます。
- エディターから、最近編集した他のパイプラインに移動するには、資産ブラウザーの上部にあるパイプラインの名前をクリックし、表示される最近使用した一覧から別のパイプラインを選択します。
- エディターの外部から、左側のサイドバーの [ 最近使った 情報] ページから、パイプラインまたはパイプラインのソース コードとして構成されたファイルを開きます。
製品全体でパイプラインを表示する場合は、パイプラインの編集を選択できます。
- パイプライン監視ページで、[鉛筆] アイコンをクリック
パイプラインを編集します。
- 左側のサイドバーの [ ジョブの実行 ] ページで、[ ジョブとパイプライン ] タブをクリックし、[
をクリックし、[ パイプラインの編集] をクリックします。
- ジョブを編集してパイプライン タスクを追加するときに、[パイプライン] でパイプラインを選択すると、[
ボタンをクリックできます。
- パイプライン監視ページで、[鉛筆] アイコンをクリック
アセット ブラウザーで [すべてのファイル ] を参照し、別のパイプラインからソース コード ファイルを開くと、エディターの上部にバナーが表示され、関連付けられているパイプラインを開くよう求められます。
パイプライン資産ビューワー
パイプラインを編集する場合、左側のワークスペース サイドバーでは、 パイプライン資産ブラウザーと呼ばれる特別なモードが使用されます。 既定では、パイプライン資産ブラウザーは、パイプライン ルートと、ルート内のフォルダーとファイルに焦点を当てています。 すべての ファイル を表示して、パイプラインのルート外のファイルを表示することもできます。 特定のパイプラインの編集中にパイプライン エディターで開かれたタブは記憶され、別のパイプラインに切り替えると、そのパイプラインを最後に編集したときにタブが開きます。
注
エディターには、SQL ファイルを編集するためのコンテキスト ( Databricks SQL エディターと呼ばれます) と、SQL ファイルまたはパイプライン ファイルではないワークスペース ファイルを編集するための一般的なコンテキストもあります。 これらの各コンテキストは、そのコンテキストを最後に使用した時点で開いたタブを記憶し、復元します。 左サイドバーの上部からコンテキストを切り替えることができます。 ヘッダーをクリックして、ワークスペース、SQL エディター、または最近編集したパイプラインを選択します。
ワークスペース ブラウザー ページからファイルを開くと、そのファイルの対応するエディターで開きます。 ファイルがパイプラインに関連付けられている場合、これは Lakeflow Pipelines エディターです。
パイプラインの一部ではないファイルを開き、パイプライン コンテキストを保持するには、資産ブラウザーの [ すべてのファイル ] タブからファイルを開きます。
パイプライン資産ブラウザーには、次の 2 つのタブがあります。
- パイプライン: パイプラインに関連付けられているすべてのファイルを見つけることができます。 作成、削除、名前の変更、フォルダーへの整理を行うことができます。 このタブには、パイプライン構成のショートカットと、最近の実行のグラフィカル ビューも含まれています。
- すべてのファイル: 他のすべてのワークスペースアセットは、ここで入手できます。 これは、パイプラインに追加するファイルを検索したり、パイプラインに関連する他のファイル (Databricks アセット バンドルを定義する YAML ファイルなど) を表示したりするのに役立ちます。
パイプラインには、次の種類のファイルを含めることができます。
- ソース コード ファイル: これらのファイルは、パイプラインのソース コード定義の一部であり、「 設定」で確認できます。 Databricks では、常にソース コード ファイルを パイプライン ルート フォルダー内に格納することをお勧めします。それ以外の場合は、ブラウザーの下部にある 外部ファイル セクションに表示され、機能セットが少なくなります。
- ソース コード以外のファイル: これらのファイルはパイプライン ルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。
Important
パイプラインのファイルとフォルダーを管理するには、[ パイプライン ] タブの下にあるパイプライン資産ブラウザーを使用する必要があります。 これにより、パイプライン設定が正しく更新されます。 ワークスペース ブラウザーまたは [すべての ファイル] タブからファイルやフォルダーを移動または名前変更すると、パイプライン構成が中断され、[ 設定] で手動で解決する必要があります。
ルート フォルダー
パイプライン資産ブラウザーは、パイプライン ルート フォルダーに固定されます。 新しいパイプラインを作成すると、パイプライン ルート フォルダーがユーザーのホーム フォルダーに作成され、パイプライン名と同じ名前になります。
パイプライン資産ブラウザーでルート フォルダーを変更できます。 これは、フォルダーにパイプラインを作成し、後ですべてを別のフォルダーに移動する場合に便利です。 たとえば、通常のフォルダーにパイプラインを作成し、バージョン管理のためにソース コードを Git フォルダーに移動するとします。
-
をクリックします。ルート フォルダーのオーバーフロー メニュー。
- 新しいルートフォルダーを構成をクリックします。
- [ パイプライン ルート フォルダー ] で [
] をクリックし、パイプライン ルート フォルダーとして別のフォルダーを選択します。 - [保存] をクリックします。
で、ルート フォルダーの [ルート フォルダーの名前を変更] をクリックして、フォルダー名を変更することもできます。 ここで、[ ルート フォルダーの移動 ] をクリックして、ルート フォルダーを Git フォルダーに移動することもできます。
設定でパイプライン ルート フォルダーを変更することもできます。
- [設定]をクリックします。
- コード資産 の パスの設定 をクリックします。
- [
をクリックして、[ パイプライン ルート フォルダー] の下のフォルダーを変更します。 - [保存] をクリックします。
注
パイプライン ルート フォルダーを変更すると、前のルート フォルダー内のファイルが外部ファイルとして表示されるため、パイプライン資産ブラウザーによって表示されるファイル一覧が影響を受けます。
ルート フォルダーのない既存のパイプライン
従来のノートブック編集エクスペリエンスを使用して作成された既存のパイプラインでは、ルート フォルダーは構成されません。 ルート フォルダーが構成されていないパイプラインを開くと、ルート フォルダーを作成し、その中のソース ファイルを整理するように求められます。
これを閉じて、ルート フォルダーを設定せずにパイプラインの編集を続行できます。
後でパイプラインのルート フォルダーを構成する場合は、次の手順に従います。
- パイプライン資産ブラウザーで、[ 構成] をクリックします。
- [
をクリックして、[パイプライン ルート フォルダー] の下にある ルート フォルダーを選択します。 - [保存] をクリックします。
既定のフォルダー構造
新しいパイプラインを作成すると、既定のフォルダー構造が作成されます。 これは、次に示すように、パイプライン ソース ファイルとソース 以外のコード ファイルを整理するための推奨される構造です。
このフォルダー構造には、少数のサンプル コード ファイルが作成されます。
| フォルダー名 | これらの種類のファイルに推奨される場所 |
|---|---|
<pipeline_root_folder> |
パイプラインのすべてのフォルダーとファイルを含むルート フォルダー。 |
transformations |
Python やテーブル定義を含む SQL コード ファイルなどのソース コード ファイル。 |
explorations |
探索的なデータ分析に使用されるノートブック、クエリ、コード ファイルなど、ソース コード以外のファイル。 |
utilities |
他のコード ファイルからインポートできる Python モジュールを含むソース コード以外のファイル。 サンプル コードの言語として SQL を選択した場合、このフォルダーは作成されません。 |
フォルダー名の名前を変更したり、ワークフローに合わせて構造を変更したりできます。 新しいソース コード フォルダーを追加するには、次の手順に従います。
- パイプライン資産ブラウザーで [ 追加] をクリックします。
- [ パイプライン ソース コード フォルダーの作成] をクリックします。
- フォルダー名を入力し、[ 作成] をクリックします。
ソース コード ファイル
ソース コード ファイルは、パイプラインのソース コード定義の一部です。 パイプラインを実行すると、これらのファイルが評価されます。 ソース コード定義のファイルとフォルダーの一部には、ミニ パイプライン アイコンが重ね合わされた特別なアイコンがあります。
新しいソース コード ファイルを追加するには、次の手順に従います。
- パイプライン資産ブラウザーで [ 追加] をクリックします。
- [ 変換] をクリックします。
- ファイルの名前を入力し、言語として Python または SQL を選択します。
- Create をクリックしてください。
[ をクリックすることもできます。パイプライン 資産ブラウザー内の任意のフォルダーに対して、ソース コード ファイルを追加します。
ソース コードの transformations フォルダーは、新しいパイプラインを作成するときに既定で作成されます。 このフォルダーは、パイプライン テーブル定義を含む Python または SQL コード ファイルなどのパイプライン ソース コードに推奨される場所です。
ソース コード以外のファイル
ソース コード以外のファイルは、パイプライン ルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。 これらのファイルは、パイプラインの実行時には評価されません。 ソース コード以外のファイルを 外部ファイルにすることはできません。
これは、ソース コードと共に格納するパイプラインでの作業に関連するファイルに使用できます。 例えば次が挙げられます。
- Lakeflow 以外の Spark 宣言型パイプラインで実行されるアドホック探索に使用するノートブックは、パイプラインのライフサイクル外で計算されます。
- ソース コード ファイル内にこれらのモジュールを明示的にインポートしない限り、ソース コードで評価されない Python モジュール。
ソース コード以外の新しいファイルを追加するには、次の手順に従います。
- パイプライン資産ブラウザーで [ 追加] をクリックします。
- [ 探索 ] または [ ユーティリティ] をクリックします。
- ファイルの 名前 を入力します。
- Create をクリックしてください。
[ をクリックすることもできます。パイプライン ルート フォルダーまたはソース コード以外のファイルの場合は、ソース コード以外のファイルをフォルダーに追加します。
新しいパイプラインを作成すると、ソース コード以外のファイル用の次のフォルダーが既定で作成されます。
| フォルダー名 | Description |
|---|---|
explorations |
このフォルダーは、ノートブック、クエリ、ダッシュボード、その他のファイルにとって推奨される場所です。そして、通常はパイプラインの実行ライフサイクル外で行うように、Lakeflow 以外の Spark 宣言型パイプラインで実行できます。 |
utilities |
このフォルダーは、親フォルダーがルート フォルダーの下に階層的に存在する限り、 from <filename> importとして表される直接インポートを介して他のファイルからインポートできる Python モジュールに推奨される場所です。 |
ルート フォルダーの外側にある Python モジュールをインポートすることもできますが、その場合は、Python コード内の sys.path にフォルダー パスを追加する必要があります。
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
外部ファイル
パイプライン ブラウザーの [外部ファイル ] セクションには、ルート フォルダーの外部にあるソース コード ファイルが表示されます。
transformations フォルダーなどのルート フォルダーに外部ファイルを移動するには、次の手順に従います。
- アセット ブラウザー内のファイルで
をクリックしてから、[移動] をクリックします。
- ファイルを移動するフォルダーを選択し、[ 移動] をクリックします。
複数のパイプラインに関連付けられているファイル
ファイルが複数のパイプラインに関連付けられている場合、ファイルのヘッダーにバッジが表示されます。 関連付けられたパイプラインの数があり、他のパイプラインに切り替えできます。
[すべてのファイル] セクション
[パイプライン] セクションに加えて、[すべてのファイル] セクションがあり、ワークスペース内の任意のファイルを開くことができます。 ここでは次を実行できます。
- Lakeflow Pipelines エディターを終了せずに、ルート フォルダーの外部にあるファイルをタブで開きます。
- 別のパイプラインのソース コード ファイルに移動して開きます。 エディターでファイルが開き、エディターのフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
- パイプラインのルート フォルダーにファイルを移動します。
- パイプラインのソース コード定義にルート フォルダーの外部にあるファイルを含めます。
パイプライン ソース ファイルを編集する
ワークスペース ブラウザーまたはパイプライン資産ブラウザーからパイプライン ソース ファイルを開くと、Lakeflow Pipelines エディターのエディター タブで開きます。 より多くのファイルを開くと、別々のタブが開き、複数のファイルを一度に編集できます。
注
ワークスペース ブラウザーからパイプラインに関連付けられていないファイルを開くと、エディターが別のコンテキスト (一般的な ワークスペース エディターまたは SQL ファイルの場合は SQL エディター) で開かれます。
パイプライン資産ブラウザーの [すべてのファイル ] タブからパイプライン以外のファイルを開くと、パイプライン コンテキストの新しいタブで開きます。
パイプライン ソース コードには、複数のファイルが含まれています。 既定では、ソース ファイルはパイプライン資産ブラウザーの 変換 フォルダーにあります。 ソース コード ファイルには、Python (*.py) または SQL (*.sql) ファイルを指定できます。 ソースには、Python ファイルと SQL ファイルの両方を 1 つのパイプラインに含めることができます。また、あるファイル内のコードは、別のファイルで定義されているテーブルまたはビューを参照できます。
tranformations フォルダーに markdown (*.md) ファイルを含めることもできます。 Markdown ファイルはドキュメントやメモに使用できますが、パイプラインの更新を実行する場合は無視されます。
次の機能は、Lakeflow Pipelines エディターに固有です。
接続 - サーバーレスコンピューティングまたはクラシック コンピューティングに接続してパイプラインを実行します。 パイプラインに関連付けられているすべてのファイルは同じコンピューティング接続を使用するため、接続したら、同じパイプライン内の他のファイルに接続する必要はありません。 コンピューティング オプションの詳細については、「 コンピューティング構成オプション」を参照してください。
探索的ノートブックなどのパイプライン以外のファイルの場合、接続オプションは使用できますが、その個々のファイルにのみ適用されます。
ファイルの実行 - このソース ファイルで定義されているテーブルを更新するコードを実行します。 次のセクションでは、パイプライン コードを実行するさまざまな方法について説明します。
編集 - Databricks アシスタントを使用して、ファイル内のコードを編集または追加します。
クイック修正 - コードにエラーがある場合は、アシスタントを使用してエラーを修正します。
下部のパネルも、現在のタブに基づいて調整されます。下部パネルでのパイプライン情報の表示は常に使用できます。 SQL エディター ファイルなどのパイプラインに関連付けられていないファイルも、別のタブの下部パネルに出力を表示します。次の図は、パイプライン情報を表示するか、選択したノートブックの情報を表示するかの下のパネルを切り替える垂直タブ セレクターを示しています。
パイプライン コードを実行する
パイプライン コードを実行するには、次の 4 つのオプションがあります。
パイプライン内のすべてのソース コード ファイルを実行する
[ パイプラインの実行 ] または [ 完全なテーブル更新でパイプライン を実行] をクリックして、パイプライン ソース コードとして定義されているすべてのファイル内のすべてのテーブル定義を実行します。 更新の種類の詳細については、「 パイプライン更新セマンティクス」を参照してください。
[ ドライラン ] をクリックして、データを更新せずにパイプラインを検証することもできます。
1 つのファイルでコードを実行する
[ ファイルの実行 ] または [ 完全なテーブル更新でファイルを 実行] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。 パイプライン内の他のファイルは評価されません。
このオプションは、ファイルの編集と反復処理をすばやく行う場合のデバッグに役立ちます。 コードを 1 つのファイルで実行する場合にのみ、副作用があります。
- 他のファイルが評価されない場合、それらのファイル内のエラーは見つかりません。
- 他のファイルで具体化されたテーブルでは、最新のソース データがある場合でも、テーブルの最新の具体化が使用されます。
- 参照テーブルがまだ具体化されていない場合は、エラーが発生する可能性があります。
- DAG は、具体化されていない他のファイルのテーブルに対して正しくないか、不整合である可能性があります。 Azure Databricks はグラフを正しく保つために最善を尽くしますが、他のファイルを評価しません。
ファイルのデバッグと編集が完了したら、パイプラインを運用環境に配置する前に、パイプラインがエンドツーエンドで動作することを確認するために、パイプライン内のすべてのソース コード ファイルを実行することをお勧めします。
1 つのテーブルのコードを実行する
ソース コード ファイル内のテーブルの定義の横にある [テーブルの実行] アイコン [テーブルの実行] アイコン
をクリックし、ドロップダウンから [テーブルの更新] または [テーブル全体の更新] を選択します。 1 つのテーブルに対してコードを実行すると、コードを 1 つのファイルで実行するのと同様の副作用があります。
注
1 つのテーブルのコードの実行は、ストリーミング テーブルと具体化されたビューで使用できます。 シンクとビューはサポートされていません。
一連のテーブルのコードを実行する
DAG からテーブルを選択して、実行するテーブルの一覧を作成できます。 DAG 内のテーブルにカーソルを合わせ、[
をクリックして、[ 更新するテーブルの選択] を選択します。 更新するテーブルを選択したら、DAG の下部にある [ 実行 ] または [ 完全更新で実行 ] オプションを選択します。
パイプライン グラフ、有向非循環グラフ (DAG)
パイプライン内のすべてのソース コード ファイルを実行または検証すると、パイプライン グラフと呼ばれる有向非循環グラフ (DAG) が表示されます。 グラフには、テーブルの依存関係グラフが表示されます。 各ノードには、検証済み、実行中、エラーなど、パイプラインのライフサイクルに沿って異なる状態があります。
右側のパネルでグラフ アイコンをクリックすると、グラフのオンとオフを切り替えることができます。 グラフを最大化することもできます。 右下には、ズーム オプションやスライダー アイコンなど、追加グラフを縦または横のレイアウトで表示するためのその他のオプション。
ノードの上にマウス ポインターを置くと、クエリの更新などのオプションを含むツール バーが表示されます。 ノードを右クリックすると、コンテキスト メニューで同じオプションが表示されます。
ノードをクリックすると、 データのプレビュー とテーブル定義が表示されます。 ファイルを編集すると、そのファイルで定義されているテーブルがグラフで強調表示されます。
データプレビュー
データ プレビュー セクションには、選択したテーブルのサンプル データが表示されます。
有向非循環グラフ (DAG) 内のノードをクリックすると、テーブルのデータのプレビューが表示されます。
テーブルが選択されていない場合は、テーブル セクションに移動し、[データプレビューの表示]
をクリックします。 テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。
テーブル データをプレビューする際に、その場でデータをフィルター処理したり並べ替えたりすることができます。 より複雑な分析を行う場合は、 Explorations フォルダーでノートブックを使用または作成できます (既定のフォルダー構造を保持していると仮定します)。 既定では、このフォルダー内のソース コードはパイプラインの更新中に実行されないため、パイプラインの出力に影響を与えずにクエリを作成できます。
実行の分析情報
エディターの下部にあるパネルで、最新のパイプライン更新に関するテーブル実行の分析情報を確認できます。
| Panel | Description |
|---|---|
| Tables | 状態とメトリックを含むすべてのテーブルを一覧表示します。 1 つのテーブルを選択すると、そのテーブルのメトリックとパフォーマンスと、データ プレビューのタブが表示されます。 |
| Performance | このパイプライン内のすべてのフローのクエリ履歴とプロファイル。 実行中と実行後に、実行メトリックと詳細なクエリ プランにアクセスできます。 詳細については、 パイプラインのアクセス クエリ履歴を 参照してください。 |
| [問題] パネル | パネルをクリックすると、パイプラインのエラーと警告が簡単に表示されます。 エントリをクリックして詳細を表示し、エラーが発生したコード内の場所に移動します。 エラーが現在表示されているファイル以外のファイルにある場合は、エラーがあるファイルにリダイレクトされます。 [ 詳細の表示 ] をクリックすると、対応するイベント ログ エントリが表示され、詳細が表示されます。 [ ログの表示 ] をクリックして、完全なイベント ログを表示します。 コードの特定の部分に関連するエラーについては、コード接辞付きエラー インジケーターが表示されます。 詳細を表示するには、 エラー アイコンをクリックするか、赤い線の上にマウス ポインターを置きます。 詳細情報が表示されたポップアップが表示されます。 その後、[ クイック修正 ] をクリックして、エラーのトラブルシューティングを行う一連のアクションを表示できます。 |
| イベント ログ | 最後のパイプライン実行中にトリガーされたすべてのイベント。 [ ログの表示 ] または問題トレイのエントリをクリックします。 |
パイプラインの構成
パイプライン エディターからパイプラインを構成できます。 パイプラインの設定、スケジュール、またはアクセス許可を変更できます。
これらのそれぞれには、エディターのヘッダーのボタンから、またはアセット ブラウザー (左側のサイドバー) のアイコンからアクセスできます。
設定 (または資産ブラウザーで
を選択):
パイプラインの設定は、全般情報、ルート フォルダーとソース コードの構成、コンピューティング構成、通知、詳細設定など、設定パネルから編集できます。
スケジュール (または資産ブラウザーで
を選択):
スケジュール ダイアログから、パイプラインの 1 つ以上のスケジュールを作成できます。 たとえば、毎日実行する場合は、ここで設定できます。 選択したスケジュールに従ってパイプラインを実行するジョブが作成されます。 新しいスケジュールを追加したり、スケジュール ダイアログから既存のスケジュールを削除したりできます。
共有 (または、
アセット ブラウザーのメニューで、[
を選択します)。
パイプラインのアクセス許可ダイアログから、ユーザーとグループのパイプラインに対するアクセス許可を管理できます。
イベント ログ
パイプラインのイベント ログを Unity カタログに発行できます。 既定では、パイプラインのイベント ログが UI に表示され、所有者がクエリを実行するためにアクセスできます。
- [設定] を開きます。
-
をクリックします。[詳細設定] の横にある矢印をクリックします。
- [ 詳細設定の編集] をクリックします。
- [ イベント ログ] で、[ カタログに発行] をクリックします。
- イベント ログの名前、カタログ、およびスキーマを指定します。
- [保存] をクリックします。
パイプライン イベントは、指定したテーブルに発行されます。
パイプライン イベント ログの使用の詳細については、 イベント ログのクエリを参照してください。
パイプライン環境
[設定] で依存関係を追加することで、ソース コードの環境を作成できます。
- [設定] を開きます。
- [ 環境] で 、[ 環境の編集] をクリックします。
-
依存関係を追加して、依存関係を
requirements.txtファイルに追加する場合と同様に追加します。 依存関係の詳細については、「 ノートブックへの依存関係の追加」を参照してください。
Databricks では、 ==でバージョンをピン留めすることをお勧めします。 「PyPi パッケージ」をご覧ください。
この環境は、パイプライン内のすべてのソース コード ファイルに適用されます。
通知
パイプライン設定を使用して通知を追加できます。
- [設定] を開きます。
- [通知] セクションで、[通知の追加] をクリックします。
- 1 つ以上のメール アドレスと、送信するイベントを追加します。
- [通知の追加] をクリックします。
注
Python イベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答 を作成します。
パイプラインの監視
Azure Databricks には、実行中のパイプラインを監視する機能も用意されています。 エディターには、最新の実行に関する結果と実行の分析情報が表示されます。 パイプラインを対話的に開発しながら効率的に反復処理できるように最適化されています。
パイプライン監視ページでは、実行履歴を表示できます。これは、ジョブを使用してスケジュールに従ってパイプラインが実行されている場合に便利です。
注
既定の監視エクスペリエンスと、更新されたプレビュー監視エクスペリエンスがあります。 次のセクションでは、プレビュー監視エクスペリエンスを有効または無効にする方法について説明します。 両方のエクスペリエンスの詳細については、「 UI でのパイプラインの監視」を参照してください。
監視エクスペリエンスは、ワークスペースの左側にある [ジョブとパイプライン ] ボタンから使用できます。 パイプライン資産ブラウザーで実行結果をクリックして、エディターから監視ページに直接移動することもできます。
監視ページの詳細については、「 UI でのパイプラインの監視」を参照してください。 監視 UI には、UI のヘッダーから [パイプラインの編集] を選択して、Lakeflow パイプライン エディターに戻る機能が含まれています。
Lakeflow パイプライン エディターと更新された監視を有効にする
Lakeflow Pipelines Editor プレビューは既定で有効になっています。 無効にすることも、次の手順で再度有効にすることもできます。 Lakeflow Pipelines Editor プレビューが有効になっている場合は、更新された監視エクスペリエンス (プレビュー) を有効にすることもできます。
ワークスペースの Lakeflow Pipelines エディター オプションを設定して、プレビューを有効にする必要があります。 オプションを編集する方法の詳細については、「 Azure Databricks プレビューの管理 」を参照してください。
プレビューが有効になったら、複数の方法で Lakeflow Pipelines エディターを有効にすることができます。
新しい ETL パイプラインを作成するときに、Lakeflow パイプライン エディターのトグルを使用して、Lakeflow Spark 宣言パイプラインのエディターを有効にします。
パイプラインの詳細設定ページは、エディターを初めて有効にするときに使用されます。 簡略化されたパイプライン作成ウィンドウは、次回新しいパイプラインを作成するときに使用されます。
既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで Lakeflow Pipelines Editor トグルを有効にします。 パイプラインの監視ページに移動し、[ 設定] をクリックして Lakeflow パイプライン エディターを有効にすることもできます。
ユーザー設定から Lakeflow Pipelines エディターを有効にすることができます。
- ワークスペースの右上の領域でユーザー バッジをクリックし、[設定と開発者] をクリックします。
- Lakeflow パイプライン エディターを有効にします。
Lakeflow パイプライン エディターの切り替えを有効にすると、すべての ETL パイプラインで既定で Lakeflow パイプライン エディターが使用されます。 Lakeflow Pipelines エディターの機能は、エディター内でオンとオフを切り替えることができます。
注
新しいパイプライン エディターを無効にした場合は、オフにした理由を説明するフィードバックを残しておくと便利です。 新しいエディターにフィードバックがある場合は、トグルに [ フィードバックの送信 ] ボタンがあります。
新しいパイプライン監視ページを有効にする
Important
この機能は パブリック プレビュー段階です。
Lakeflow Pipelines Editor プレビューの一部として、パイプラインの新しいパイプライン監視ページを有効にすることもできます。 パイプライン監視ページを有効にするには、Lakeflow Pipelines Editor プレビューを有効にする必要があります。 エディター プレビューが有効になっている場合、新しい監視ページも既定で有効になります。
[ ジョブとパイプライン] をクリックします。
パイプラインの名前をクリックすると、パイプラインの詳細が表示されます。
ページの上部で、[ 新しいパイプライン ] ページのトグルを使用して、更新された監視 UI を有効にします。
制限事項と既知の問題
Lakeflow Spark 宣言型パイプラインの ETL パイプライン エディターの次の制限事項と既知の問題を参照してください。
これらのファイルまたはノートブックはパイプラインのソース コード定義の一部ではないため、
explorationsフォルダーまたはノートブックでファイルを開いて開始した場合、ワークスペース ブラウザーのサイドバーはパイプラインに集中しません。ワークスペース ブラウザーでパイプライン フォーカス モードに入るために、パイプラインに関連付けられているファイルを開きます。
データ プレビューは、通常のビューではサポートされていません。
Python モジュールは、ルート フォルダー内にあるか、
sys.path上にある場合でも、UDF 内から見つかりません。 これらのモジュールにアクセスするには、UDF 内からsys.pathへのパスを追加します。次に例を示します。sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installは、ファイル (新しいエディターを使用した既定の資産の種類) ではサポートされていません。 設定に依存関係を追加できます。 パイプライン環境を参照してください。別の方法として、パイプラインに関連付けられたノートブックの
%pip installをソースコード定義で引き続き使用することもできます。
FAQ
ソース コードにノートブックではなくファイルを使用する理由
ノートブックのセル単位での実行は、パイプラインと互換性がありません。 ノートブックの標準機能は、パイプラインを操作するときに無効または変更されるため、ノートブックの動作に慣れているユーザーは混乱します。
Lakeflow Pipelines エディターでは、ファイル エディターがパイプラインのファースト クラス エディターの基盤として使用されます。 機能は、さまざまな動作で使い慣れた機能をオーバーロードするのではなく、テーブル実行アイコン
などのパイプラインを明示的に対象とします。
ノートブックをソース コードとして引き続き使用できますか?
はい、できます。 ただし、テーブル実行アイコンや
ファイルなどの一部の機能は存在しません。
ノートブックを使用する既存のパイプラインがある場合でも、新しいエディターで動作します。 ただし、Databricks では、新しいパイプラインのファイルに切り替えることをお勧めします。
新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?
既存のソース コード ファイルを新しいパイプラインに追加できます。 既存のファイルを含むフォルダーを追加するには、次の手順に従います。
- [設定]をクリックします。
- [ ソース コード ] の [ パスの構成] をクリックします。
- [ パスの追加] をクリックし、既存のファイルのフォルダーを選択します。
- [保存] をクリックします。
個々のファイルを追加することもできます。
- パイプライン資産ブラウザーで [ すべてのファイル ] をクリックします。
- ファイルに移動し、[
をクリックし、[ パイプラインに含める] をクリックします。
これらのファイルをパイプライン ルート フォルダーに移動することを検討してください。 パイプライン ルート フォルダーの外側にある場合は、[ 外部ファイル ] セクションに表示されます。
Git でパイプライン ソース コードを管理できますか?
最初にパイプラインを作成するときに Git フォルダーを選択することで、Git でパイプライン ソースを管理できます。
注
Git フォルダーでソースを管理すると、ソース コードのバージョン管理が追加されます。 ただし、構成をバージョン管理するために、Databricks では Databricks Asset Bundles を使用して、Git (または別のバージョン管理システム) に格納できるバンドル構成ファイルでパイプライン構成を定義することをお勧めします。 詳細については、「 Databricks アセット バンドルとは」を参照してください。
最初に Git フォルダーにパイプラインを作成しなかった場合は、ソースを Git フォルダーに移動できます。 Databricks では、エディター アクションを使用してルート フォルダー全体を Git フォルダーに移動することをお勧めします。 これにより、それに応じてすべての設定が更新されます。 ルート フォルダーを参照してください。
ルート フォルダーをパイプライン資産ブラウザーの Git フォルダーに移動するには:
- ルート フォルダーの
をクリックします。
- [ ルート フォルダーの移動] をクリックします。
- ルート フォルダーの新しい場所を選択し、[ 移動] をクリックします。
詳細については、「 ルート フォルダー 」セクションを参照してください。
移動後、ルート フォルダーの名前の横に使い慣れた Git アイコンが表示されます。
Important
パイプライン ルート フォルダーを移動するには、パイプライン資産ブラウザーと上記の手順を使用します。 他の方法で移動すると、パイプラインの構成が中断され、[ 設定] で正しいフォルダー パスを手動で構成する必要があります。
- ルート フォルダーの
同じルート フォルダーに複数のパイプラインを含めることができますか?
可能ですが、Databricks ではルート フォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。
ドライランはいつ実行すればよいですか?
[ Dry run ]\(ドライラン\) をクリックして、テーブルを更新せずにコードを確認します。
一時的なビューを使用する必要がある場合と、コードで具体化されたビューを使用する必要があるタイミング
データを具体化しない場合は、一時ビューを使用します。 たとえば、これは、カタログに登録されているストリーミング テーブルまたは具体化されたビューを使用して具体化する準備が整う前にデータを準備する一連の手順のステップです。