Lakeflow 宣言型パイプラインの概念

2025-06-11

Lakeflow 宣言型パイプラインとは何か、それを定義する主要な概念 (パイプライン、ストリーミングテーブル、具体化されたビューなど)、それらの概念間のリレーションシップ、およびデータ処理ワークフローで使用する利点について説明します。

注

Lakeflow 宣言型パイプラインには、 Premium プランが必要です。詳細については、Databricks アカウントチームにお問い合わせください。

Lakeflow 宣言型パイプラインとは何ですか

Lakeflow 宣言型パイプラインは、SQL および Python でバッチおよびストリーミングデータパイプラインを開発および実行するための宣言型フレームワークです。 Lakeflow 宣言型パイプラインはパフォーマンス最適化 Databricks ランタイム (DBR) で実行され、Lakeflow 宣言パイプライン flows API では、Apache Spark および構造化ストリーミングと同じ DataFrame API が使用されます。 Lakeflow 宣言型パイプラインの一般的なユースケースには、クラウドストレージ (Amazon S3、Azure ADLS Gen2、Google Cloud Storage を含む) やメッセージバス (Apache Kafka、Amazon Kinesis、Google Pub/Sub、Azure EventHub、Apache Pulsar など) からの増分データインジェスト、ステートレス演算子とステートフル演算子を使用した増分バッチ変換とストリーミング変換、メッセージバスやデータベースなどのトランザクションストア間のリアルタイムストリーム処理などがあります。

宣言型データ処理の詳細については、「 Databricks での手続き型データ処理と宣言型データ処理」を参照してください。

Lakeflow デクラレーティブパイプラインの利点は何ですか?

Lakeflow 宣言型パイプラインの宣言型の性質は、 Apache Spark および Spark Structured Streaming API を使用してデータパイプラインを開発し、 Lakeflow ジョブを介して手動オーケストレーションを使用して Databricks ランタイムで実行する場合と比較して、次の利点を提供します。

自動オーケストレーション: Lakeflow 宣言パイプラインでは、処理手順 ("フロー" と呼ばれます) が自動的に調整され、最適なパフォーマンスを得るために、正しい実行順序と並列処理の最大レベルが確保されます。さらに、Lakeflow 宣言パイプラインは、一時的なエラーを自動的かつ効率的に再試行します。再試行プロセスは、最も細かくコスト効率の高い単位である Spark タスクから始まります。タスクレベルの再試行が失敗した場合、Lakeflow 宣言パイプラインはフローの再試行に進み、必要に応じて最後にパイプライン全体を再試行します。
宣言型処理: Lakeflow 宣言型パイプラインは、数百行または数千行の手動 Spark および構造化ストリーミングコードを数行のみに減らすことができる宣言型関数を提供します。 Lakeflow 宣言パイプライン AUTO CDC API は、SCD タイプ 1 と SCD タイプ 2 の両方をサポートすることで、変更データキャプチャ (CDC) イベントの処理を簡略化します。これにより、順序が誤ったイベントを処理するための手動コードの必要がなくなります。また、ストリーミングセマンティクスやウォーターマークなどの概念を理解する必要はありません。
増分処理: Lakeflow 宣言パイプラインは、具体化されたビュー用の増分処理エンジンを提供します。これを使用するには、バッチセマンティクスを使用して変換ロジックを記述します。エンジンは、可能な限り新しいデータと変更のみをデータソースで処理します。増分処理により、ソースで新しいデータや変更が発生した場合の非効率的な再処理が減り、増分処理を処理する手動コードが不要になります。

主要概念

次の図は、Lakeflow 宣言パイプラインの最も重要な概念を示しています。

LDPの中核概念が非常に高レベルでどのように関連しているかを示す図

フロー

フローは、ストリーミングセマンティクスとバッチセマンティクスの両方をサポートする Lakeflow 宣言パイプラインの基本的なデータ処理の概念です。フローは、ソースからデータを読み取り、ユーザー定義の処理ロジックを適用して、結果をターゲットに書き込みます。 Lakeflow 宣言型パイプラインは、Spark 構造化ストリーミングと同じストリーミングフローの種類 (追加、更新、完了) を共有します。 (現時点では、追加フローのみが公開されています)。詳細については、構造化ストリーミングの出力モードを参照してください。

Lakeflow 宣言パイプラインには、追加のフローの種類も用意されています。

AUTO CDC は、順序の異なった CDC イベントを処理し、SCD タイプ 1 と SCD タイプ 2 の両方をサポートする、Lakeflow 宣言型パイプラインの一意のストリーミングフローです。
具体化されたビュー は、可能な限りソーステーブルの新しいデータと変更のみを処理する、Lakeflow 宣言パイプラインの一意のバッチフローです。

詳細については、以下を参照してください。

Lakeflow 宣言型パイプラインフローを使用してデータを段階的に読み込み処理する

ストリーミングテーブル

ストリーミングテーブルは、Lakeflow 宣言型パイプラインのストリーミングターゲットでもある Unity カタログマネージドテーブルの形式です。ストリーミングテーブルには、1 つ以上のストリーミングフロー (Append、 AUTO CDC) を書き込むことができます。 AUTO CDC は、ストリーミングテーブルでのみ使用できる一意のストリーミングフローです。ストリーミングフローは、ターゲットストリーミングテーブルとは別に明示的に定義できます。ストリーミングフローは、ストリーミングテーブル定義の一部として暗黙的に定義することもできます。

詳細については、以下を参照してください。

ストリーミングテーブルのしくみ

マテリアライズド・ビュー

具体化されたビューは、Unity カタログのマネージドテーブルの形式でもあり、バッチターゲットです。具体化されたビューには、1 つ以上の具体化されたビューフローを書き込むことができます。具体化されたビューは、具体化されたビュー定義の一部としてフローを常に暗黙的に定義するという点で、ストリーミングテーブルとは異なります。

詳細については、以下を参照してください。

マテリアライズドビューのしくみ

シンク

シンクは、Lakeflow 宣言型パイプラインのストリーミングターゲットであり、現在、Delta テーブル、Apache Kafka トピック、および Azure EventHubs トピックをサポートしています。シンクには、1 つ以上のストリーミングフロー (追加) を書き込むことができます。

詳細については、以下を参照してください。

Lakeflow 宣言型パイプラインシンクを使用して外部サービスにレコードをストリーム配信する

パイプライン

パイプラインは、Lakeflow 宣言パイプラインでの開発と実行の単位です。パイプラインには、1 つ以上のフロー、ストリーミングテーブル、具体化されたビュー、シンクを含めることができます。 Lakeflow 宣言型パイプラインを使用するには、パイプラインのソースコードでフロー、ストリーミングテーブル、具体化されたビュー、シンクを定義し、パイプラインを実行します。パイプラインの実行中に、定義されたフロー、ストリーミングテーブル、具体化されたビュー、シンクの依存関係を分析し、実行と並列化の順序を自動的に調整します。

詳細については、以下を参照してください。

Lakeflow 宣言パイプラインパイプラインを構成する

Lakeflow 向けの Databricks SQL 宣言型パイプライン

Lakeflow 宣言型パイプラインは、Databricks SQL の 2 つの基本的な ETL 機能としてストリーミングテーブルと具体化されたビューを提供します。 Databricks SQL で標準 SQL を使用して、ストリーミングテーブルと具体化されたビューを作成および更新できます。 Databricks SQL のストリーミングテーブルと具体化されたビューは、同じ Databricks インフラストラクチャ上で実行され、Lakeflow 宣言型パイプラインと同じ処理セマンティクスを持ちます。 Databricks SQL でストリーミングテーブルと具体化されたビューを使用する場合、フローはストリーミングテーブルと具体化されたビュー定義の一部として暗黙的に定義されます。

詳細については、以下を参照してください。

Databricks SQL で Lakeflow 宣言パイプラインを使用する

次の方法で共有

Lakeflow 宣言型パイプラインの概念

Lakeflow 宣言型パイプラインとは何ですか

Lakeflow デクラレーティブ パイプラインの利点は何ですか?

主要概念

フロー

ストリーミング テーブル

マテリアライズド・ビュー

シンク

パイプライン

Lakeflow 向けの Databricks SQL 宣言型パイプライン

詳細情報

フィードバック

その他のリソース

Lakeflow デクラレーティブパイプラインの利点は何ですか?

ストリーミングテーブル