파이프라인에서 create_streaming_table() 함수를 사용하여 스트리밍 작업의 출력, 이를테면 create_auto_cdc_flow(), create_auto_cdc_from_snapshot_flow(), append_flow 출력 레코드를 위한 대상 테이블을 생성합니다.
비고
create_target_table() 및 create_streaming_live_table() 함수는 더 이상 사용되지 않습니다. Databricks에서는 create_streaming_table() 함수를 사용하도록 기존 코드를 업데이트할 것을 권장합니다.
Syntax
from pyspark import pipelines as dp
dp.create_streaming_table(
name = "<table-name>",
comment = "<comment>",
spark_conf={"<key>" : "<value", "<key" : "<value>"},
table_properties={"<key>" : "<value>", "<key>" : "<value>"},
path="<storage-location-path>",
partition_cols=["<partition-column>", "<partition-column>"],
cluster_by_auto = <bool>,
cluster_by = ["<clustering-column>", "<clustering-column>"],
schema="schema-definition",
expect_all = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
row_filter = "row-filter-clause"
)
매개 변수
| 매개 변수 | 유형 | Description |
|---|---|---|
name |
str |
필수 사항입니다. 테이블의 이름입니다. |
comment |
str |
테이블에 대한 설명입니다. |
spark_conf |
dict |
이 쿼리 실행을 위한 Spark 구성 목록 |
table_properties |
dict |
dict 테이블의 테이블 속성입니다. |
path |
str |
테이블 데이터의 스토리지 위치입니다. 설정하지 않은 경우 테이블을 포함하는 스키마에 대해 관리되는 스토리지 위치를 사용합니다. |
partition_cols |
list |
테이블을 분할하는 데 사용할 하나 이상의 열 목록입니다. |
cluster_by_auto |
bool |
테이블에서 자동 액체 클러스터링을 사용하도록 설정합니다. 이를 초기 클러스터링 키로 cluster_by 사용할 열과 결합하고 정의한 다음 워크로드에 따라 모니터링 및 자동 키 선택 업데이트를 수행할 수 있습니다.
자동 액체 클러스터링을 참조하세요. |
cluster_by |
list |
테이블에서 액체 클러스터링을 사용하도록 설정하고 클러스터링 키로 사용할 열을 정의합니다. 테이블에 대한 액체 클러스터링 사용을 참조하세요. |
schema |
str 또는 StructType |
테이블에 대한 스키마 정의입니다. 스키마는 SQL DDL 문자열 또는 Python StructType으로 정의할 수 있습니다 |
expect_all, expect_all_or_dropexpect_all_or_fail |
dict |
테이블에 대한 데이터 품질 제약 조건입니다. 동일한 동작을 제공하고 예상 데코레이터 함수와 동일한 구문을 사용하지만 매개 변수로 구현됩니다. 기대치를 참조하세요. |
row_filter |
str |
(공개 체험판) 테이블에 대한 행 필터 조건입니다. 행 필터 및 열 마스크가 있는 테이블 게시을 참조하세요. |