Lakeflow 宣言型パイプラインの Python 言語リファレンス

2025-06-11

このセクションでは、Lakeflow 宣言型パイプライン Python プログラミングインターフェイスの詳細について説明します。

Lakeflow 宣言パイプラインに Python を使用する概念と概要については、「Python を使用したパイプラインコードの開発」を参照してください。
SQL リファレンスについては、 Lakeflow 宣言型パイプラインの SQL 言語リファレンスを参照してください。
自動ローダーの構成に固有の詳細については、自動ローダーに関する記事を参照してください。

`dlt` モジュールの概要

Lakeflow 宣言型パイプライン Python 関数は、 dlt モジュールで定義されています。 Python API で実装されたパイプラインは、このモジュールをインポートする必要があります。

import dlt

データセット定義の関数

Lakeflow 宣言型パイプラインでは、具体化されたビューやストリーミングテーブルなどのデータセットを定義するために Python デコレーターを使用します。データセットを定義する関数を参照してください。

API リファレンス

Python Lakeflow 宣言パイプラインに関する考慮事項

Lakeflow 宣言型パイプライン Python インターフェイスを使用してパイプラインを実装する場合の重要な考慮事項を次に示します。

Lakeflow 宣言型パイプラインは、計画とパイプラインの実行中にパイプラインを複数回定義するコードを評価します。データセットを定義する Python 関数には、テーブルまたはビューを定義するために必要なコードのみを含める必要があります。データセット定義に含まれる任意の Python ロジックは、予期しない動作につながる可能性があります。
データセット定義にカスタム監視ロジックを実装しないでください。イベントフックを使用した Lakeflow 宣言パイプラインのカスタム監視の定義を参照してください。
データセットの定義に使用する関数は、Spark DataFrame を返す必要があります。返された DataFrame に関連しないロジックをデータセット定義に含めないでください。
Lakeflow 宣言パイプラインのデータセットコードの一部として、ファイルまたはテーブルを保存または書き込むメソッドは使用しないでください。

Lakeflow 宣言パイプラインコードで使用してはならない Apache Spark 操作の例:

collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()