다음을 통해 공유


create_streaming_table

파이프라인에서 create_streaming_table() 함수를 사용하여 스트리밍 작업의 출력, 이를테면 create_auto_cdc_flow(), create_auto_cdc_from_snapshot_flow(), append_flow 출력 레코드를 위한 대상 테이블을 생성합니다.

비고

create_target_table()create_streaming_live_table() 함수는 더 이상 사용되지 않습니다. Databricks에서는 create_streaming_table() 함수를 사용하도록 기존 코드를 업데이트할 것을 권장합니다.

Syntax

from pyspark import pipelines as dp

dp.create_streaming_table(
  name = "<table-name>",
  comment = "<comment>",
  spark_conf={"<key>" : "<value", "<key" : "<value>"},
  table_properties={"<key>" : "<value>", "<key>" : "<value>"},
  path="<storage-location-path>",
  partition_cols=["<partition-column>", "<partition-column>"],
  cluster_by_auto = <bool>,
  cluster_by = ["<clustering-column>", "<clustering-column>"],
  schema="schema-definition",
  expect_all = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
  row_filter = "row-filter-clause"
)

매개 변수

매개 변수 유형 Description
name str 필수 사항입니다. 테이블의 이름입니다.
comment str 테이블에 대한 설명입니다.
spark_conf dict 이 쿼리 실행을 위한 Spark 구성 목록
table_properties dict dict 테이블의 테이블 속성입니다.
path str 테이블 데이터의 스토리지 위치입니다. 설정하지 않은 경우 테이블을 포함하는 스키마에 대해 관리되는 스토리지 위치를 사용합니다.
partition_cols list 테이블을 분할하는 데 사용할 하나 이상의 열 목록입니다.
cluster_by_auto bool 테이블에서 자동 액체 클러스터링을 사용하도록 설정합니다. 이를 초기 클러스터링 키로 cluster_by 사용할 열과 결합하고 정의한 다음 워크로드에 따라 모니터링 및 자동 키 선택 업데이트를 수행할 수 있습니다. 자동 액체 클러스터링을 참조하세요.
cluster_by list 테이블에서 액체 클러스터링을 사용하도록 설정하고 클러스터링 키로 사용할 열을 정의합니다. 테이블에 대한 액체 클러스터링 사용을 참조하세요.
schema str 또는 StructType 테이블에 대한 스키마 정의입니다. 스키마는 SQL DDL 문자열 또는 Python StructType으로 정의할 수 있습니다
expect_all, expect_all_or_dropexpect_all_or_fail dict 테이블에 대한 데이터 품질 제약 조건입니다. 동일한 동작을 제공하고 예상 데코레이터 함수와 동일한 구문을 사용하지만 매개 변수로 구현됩니다. 기대치를 참조하세요.
row_filter str (공개 체험판) 테이블에 대한 행 필터 조건입니다. 행 필터 및 열 마스크가 있는 테이블 게시을 참조하세요.