パイプラインのcreate_streaming_table()関数を使用して、create_auto_cdc_flow()、create_auto_cdc_from_snapshot_flow()、およびappend_flowによって出力されるレコードのターゲットテーブルをストリーミング操作用に作成します。
注
create_target_table() 関数と create_streaming_live_table() 関数は非推奨です。 Databricks では、create_streaming_table() 関数を使用するように既存のコードを更新することをお勧めします。
構文
from pyspark import pipelines as dp
dp.create_streaming_table(
name = "<table-name>",
comment = "<comment>",
spark_conf={"<key>" : "<value", "<key" : "<value>"},
table_properties={"<key>" : "<value>", "<key>" : "<value>"},
path="<storage-location-path>",
partition_cols=["<partition-column>", "<partition-column>"],
cluster_by_auto = <bool>,
cluster_by = ["<clustering-column>", "<clustering-column>"],
schema="schema-definition",
expect_all = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
row_filter = "row-filter-clause"
)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
name |
str |
必須。 テーブル名。 |
comment |
str |
テーブルの説明です。 |
spark_conf |
dict |
このクエリを実行するための Spark 構成の一覧 |
table_properties |
dict |
dictのテーブル プロパティ群。 |
path |
str |
テーブル データの格納場所。 設定されていない場合は、テーブルを含むスキーマのマネージド ストレージの場所を使用します。 |
partition_cols |
list |
テーブルのパーティション分割に使用する 1 つ以上の列の一覧。 |
cluster_by_auto |
bool |
テーブルで自動液体クラスタリングを有効にします。 これを cluster_by と組み合わせて、初期クラスタリング キーとして使用する列を定義してから、ワークロードに基づく監視と自動キー選択の更新を行うことができます。
自動液体クラスタリングを参照してください。 |
cluster_by |
list |
リキッド クラスタリングをテーブルに対して有効化し、クラスタリング キーとして使用する列を定義します。 表に液体クラスタリングを使用するを参照してください。 |
schema |
str または StructType |
テーブルのスキーマ定義。 スキーマは、SQL DDL 文字列としてまたは Python StructType を使用して定義できます。 |
expect_all、 expect_all_or_drop、 expect_all_or_fail |
dict |
テーブルのデータ品質制約。 同じ動作を提供し、期待されるデコレーター関数と同じ構文を使用しますが、パラメーターとして実装されます。 「期待値」を参照してください。 |
row_filter |
str |
(パブリック プレビュー) テーブル用の行フィルター句。 「行フィルターと列マスクを使用してテーブルを発行する」を参照してください。 |