次の方法で共有


Lakeflow 宣言型パイプラインの Python 言語リファレンス

このセクションでは、Lakeflow 宣言型パイプライン Python プログラミング インターフェイスの詳細について説明します。

dlt モジュールの概要

Lakeflow 宣言型パイプライン Python 関数は、 dlt モジュールで定義されています。 Python API で実装されたパイプラインは、このモジュールをインポートする必要があります。

import dlt

データセット定義の関数

Lakeflow 宣言型パイプラインでは、具体化されたビューやストリーミング テーブルなどのデータセットを定義するために Python デコレーターを使用します。 データセットを定義する関数を参照してください。

API リファレンス

Python Lakeflow 宣言パイプラインに関する考慮事項

Lakeflow 宣言型パイプライン Python インターフェイスを使用してパイプラインを実装する場合の重要な考慮事項を次に示します。

  • Lakeflow 宣言型パイプラインは、計画とパイプラインの実行中にパイプラインを複数回定義するコードを評価します。 データセットを定義する Python 関数には、テーブルまたはビューを定義するために必要なコードのみを含める必要があります。 データセット定義に含まれる任意の Python ロジックは、予期しない動作につながる可能性があります。
  • データセット定義にカスタム監視ロジックを実装しないでください。 イベント フックを使用した Lakeflow 宣言パイプラインのカスタム監視の定義を参照してください。
  • データセットの定義に使用する関数は、Spark DataFrame を返す必要があります。 返された DataFrame に関連しないロジックをデータセット定義に含めないでください。
  • Lakeflow 宣言パイプライン のデータセット コードの一部として、ファイルまたはテーブルを保存または書き込むメソッドは使用しないでください。

Lakeflow 宣言パイプライン コードで使用してはならない Apache Spark 操作の例:

  • collect()
  • count()
  • toPandas()
  • save()
  • saveAsTable()
  • start()
  • toTable()