このセクションでは、Lakeflow 宣言型パイプライン Python プログラミング インターフェイスの詳細について説明します。
- Lakeflow 宣言パイプラインに Python を使用する概念と概要については、「Python を使用した パイプライン コードの開発」を参照してください。
- SQL リファレンスについては、 Lakeflow 宣言型パイプラインの SQL 言語リファレンスを参照してください。
- 自動ローダーの構成に固有の詳細については、自動ローダーに関する記事を参照してください。
dlt
モジュールの概要
Lakeflow 宣言型パイプライン Python 関数は、 dlt
モジュールで定義されています。 Python API で実装されたパイプラインは、このモジュールをインポートする必要があります。
import dlt
データセット定義の関数
Lakeflow 宣言型パイプラインでは、具体化されたビューやストリーミング テーブルなどのデータセットを定義するために Python デコレーターを使用します。 データセットを定義する関数を参照してください。
API リファレンス
Python Lakeflow 宣言パイプラインに関する考慮事項
Lakeflow 宣言型パイプライン Python インターフェイスを使用してパイプラインを実装する場合の重要な考慮事項を次に示します。
- Lakeflow 宣言型パイプラインは、計画とパイプラインの実行中にパイプラインを複数回定義するコードを評価します。 データセットを定義する Python 関数には、テーブルまたはビューを定義するために必要なコードのみを含める必要があります。 データセット定義に含まれる任意の Python ロジックは、予期しない動作につながる可能性があります。
- データセット定義にカスタム監視ロジックを実装しないでください。 イベント フックを使用した Lakeflow 宣言パイプラインのカスタム監視の定義を参照してください。
- データセットの定義に使用する関数は、Spark DataFrame を返す必要があります。 返された DataFrame に関連しないロジックをデータセット定義に含めないでください。
- Lakeflow 宣言パイプライン のデータセット コードの一部として、ファイルまたはテーブルを保存または書き込むメソッドは使用しないでください。
Lakeflow 宣言パイプライン コードで使用してはならない Apache Spark 操作の例:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()