AUTO CDC INTO (パイプライン)

AUTO CDC ... INTO ステートメントを使用して、Lakeflow パイプライン変更データキャプチャ (CDC) 機能を使用するフローを作成します。このステートメントは、CDC ソースから変更を読み取り、ストリーミングターゲットに適用します。

CDC の詳細については、「データキャプチャとスナップショットの変更」を参照してください。
AUTO CDCの使用の詳細については、「AUTO CDC API: パイプラインを使用して変更データキャプチャを簡略化する」を参照してください。
CREATE FLOWの詳細については、「CREATE FLOW (パイプライン)」を参照してください。

構文

CREATE OR REFRESH STREAMING TABLE table_name;

CREATE FLOW flow_name AS AUTO CDC [ONCE] INTO table_name
FROM source
KEYS (keys)
[IGNORE NULL UPDATES]
[APPLY AS DELETE WHEN condition]
[APPLY AS TRUNCATE WHEN condition]
SEQUENCE BY orderByColumn
[SYSTEM SEQUENCE BY systemOrderByColumn]
[COLUMNS {columnList | * EXCEPT (exceptColumnList)}]
[STORED AS {SCD TYPE 1 | SCD TYPE 2 | BITEMPORAL}]
[TRACK HISTORY ON {columnList | * EXCEPT (exceptColumnList)}]

ターゲットのデータ品質制約は、他のパイプラインクエリと同じ CONSTRAINT 句を使用して定義します。パイプラインの期待を使用してデータ品質を管理する方法については、を参照してください。

INSERTイベントとUPDATEイベントの既定の動作は、ソースから CDC イベントをアップサートすることです。指定したキーに一致するターゲットテーブル内のすべての行を更新するか、一致するレコードがターゲットテーブルに存在しない場合は新しい行を挿入します。 DELETEイベントの処理は、APPLY AS DELETE WHEN条件で指定できます。

Important

変更を適用するには、ターゲットストリーミングテーブルを宣言する必要があります。必要に応じて、ターゲットテーブルのスキーマを指定できます。 SCD タイプ 2 テーブルの場合、ターゲットテーブルのスキーマを指定する場合は、__START_AT フィールドと同じデータ型の__END_AT列とsequence_by列も含める必要があります。

「AUTO CDC API: パイプラインを使用して変更データキャプチャを簡略化する」を参照してください。

パラメーター

ONCE

ONCEを指定すると、ターゲットテーブルに 1 回限りの挿入 (バックフィル) が実行されます。完全更新の場合を除き、パイプラインが更新された場合は再実行されません。

この句は省略可能です。
flow_name

作成するフローの名前。
source

データのソース。ソースは ストリーミング ソースである必要があります。 STREAM キーワードを使用して、ストリーミングセマンティクスを使用してソースから読み取ります。読み取りで既存のレコードの変更または削除が発生した場合は、エラーがスローされます。静的ソースまたは追加専用ソースから読み取るのが最も安全です。変更コミットがあるデータを取り込むには、Python と skipChangeCommits オプションを使用してエラーを処理できます。

ストリーミングデータの詳細については、「パイプラインを使用してデータを変換する」を参照してください。
KEYS

ソースデータ内の行を一意に識別する列または列の組み合わせ。これらの列の値は、ターゲットテーブル内の特定のレコードに適用される CDC イベントを識別するために使用されます。

列の組み合わせを定義するには、列のコンマ区切りのリストを使用します。

この句は必須です。
IGNORE NULL UPDATES

ターゲット列のサブセットを含む更新プログラムの取り込みを許可します。 CDC イベントが既存の行と一致し、IGNORE NULL UPDATES が指定されている場合、 null 値を持つ列はターゲット内の既存の値を保持します。これは、 null 値を持つ入れ子になった列にも適用されます。

この句は省略可能です。

既定値は、既存の列を null 値で上書きすることです。
APPLY AS DELETE WHEN

CDC イベントをアップサートではなく DELETE として扱うタイミングを指定します。

SCD タイプ 2 のソースでは、順序が正しく指定されていないデータを処理するために、削除された行は基になる Delta テーブルの廃棄石として一時的に保持され、これらの廃棄石を除外するビューがメタストアに作成されます。保持間隔は、 pipelines.cdc.tombstoneGCThresholdInSecondstable プロパティを使用して構成できます。

この句は省略可能です。
APPLY AS TRUNCATE WHEN

CDC イベントを完全なテーブル TRUNCATEとして扱うタイミングを指定します。この句はターゲットテーブルの完全な切り捨てをトリガーするため、この機能を必要とする特定のユースケースにのみ使用する必要があります。

APPLY AS TRUNCATE WHEN句は、SCD 型 1 でのみサポートされます。 SCD タイプ 2 では、切り捨て操作はサポートされていません。

この句は省略可能です。
SEQUENCE BY

ソースデータ内の CDC イベントの論理順序を指定する列名。パイプライン処理では、このシーケンス処理を使用して、順不同に到着した変更イベントを処理します。

シーケンス処理に複数の列が必要な場合は、 STRUCT 式を使用します。最初の構造体フィールドで並べ替え、タイがある場合は 2 番目のフィールドで並べ替えます。

指定された列は、並べ替え可能なデータ型である必要があります。

この句は必須です。
SYSTEM SEQUENCE BY

Important

Bitemporal AUTO CDC はベータ版です。

各 CDC イベントがシステムに認識されるシステム時刻を指定する列名。 STORED AS BITEMPORALと共に使用して、業務時間 (SEQUENCE BY) とシステム時間の両方の変更を追跡します。「Bitemporal AUTO CDC のしくみ」を参照してください。

指定された列は、並べ替え可能なデータ型である必要があります。

この句は省略可能であり、一口テーブルにのみ適用されます。
COLUMNS

ターゲットテーブルに含める列のサブセットを指定します。次のいずれかを実行できます。
- 含める列の完全な一覧を指定します: COLUMNS (userId, name, city)。
- 除外する列の一覧を指定します。 COLUMNS * EXCEPT (operation, sequenceNum)
この句は省略可能です。

既定では、 COLUMNS 句が指定されていない場合は、ターゲットテーブル内のすべての列が含まれます。
STORED AS

レコードを SCD タイプ 1、SCD タイプ 2、または bitemporal として格納するかどうか。

ビジネス時間とシステム時間の両方の変更を追跡するには、 BITEMPORAL に設定します。 Bitemporal には SYSTEM SEQUENCE BY が必要であり、ベータ版です。「Bitemporal AUTO CDC のしくみ」を参照してください。

この句は省略可能です。

既定値は SCD タイプ 1 です。
TRACK HISTORY ON

指定した列に変更がある場合に履歴レコードを生成する出力列のサブセットを指定します。次のいずれかを実行できます。
- 追跡する列の完全な一覧を指定します: COLUMNS (userId, name, city)。
- 追跡から除外する列の一覧を指定します。 COLUMNS * EXCEPT (operation, sequenceNum)
この句は省略可能です。既定では、 TRACK HISTORY ON *と同等の変更がある場合に、すべての出力列の履歴を追跡します。

例示

-- Create a streaming table, then use AUTO CDC to populate it:
CREATE OR REFRESH STREAMING TABLE target;

CREATE FLOW flow
AS AUTO CDC INTO
  target
FROM stream(cdc_data.users)
  KEYS (userId)
  APPLY AS DELETE WHEN operation = "DELETE"
  SEQUENCE BY sequenceNum
  COLUMNS * EXCEPT (operation, sequenceNum)
  STORED AS SCD TYPE 2
  TRACK HISTORY ON * EXCEPT (city);

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-07-10

AUTO CDC INTO (パイプライン)

構文

パラメーター

例示

フィードバック

その他のリソース