Freigeben über


Streaming-Tabelle erstellen

Verwenden Sie die create_streaming_table()-Funktion in einer Pipeline, um eine Zieltabelle für die durch Streaming-Vorgänge ausgegebenen Datensätze zu erstellen, einschließlich der Ausgaben von create_auto_cdc_flow(), create_auto_cdc_from_snapshot_flow() und append_flow.

Hinweis

Die Funktionen create_target_table() und create_streaming_live_table() sind veraltet. Databricks empfiehlt das Aktualisieren des vorhandenen Codes, um die create_streaming_table()-Funktion zu verwenden.

Syntax

from pyspark import pipelines as dp

dp.create_streaming_table(
  name = "<table-name>",
  comment = "<comment>",
  spark_conf={"<key>" : "<value", "<key" : "<value>"},
  table_properties={"<key>" : "<value>", "<key>" : "<value>"},
  path="<storage-location-path>",
  partition_cols=["<partition-column>", "<partition-column>"],
  cluster_by_auto = <bool>,
  cluster_by = ["<clustering-column>", "<clustering-column>"],
  schema="schema-definition",
  expect_all = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
  row_filter = "row-filter-clause"
)

Die Parameter

Parameter Typ Description
name str Erforderlich. Der Tabellenname.
comment str Eine Beschreibung für die Tabelle.
spark_conf dict Eine Liste der Spark-Konfigurationen für die Ausführung dieser Abfrage
table_properties dict Eine dict von Tabelleneigenschaften für die Tabelle
path str Ein Speicherort für Tabellendaten. Wenn sie nicht festgelegt ist, verwenden Sie den verwalteten Speicherort für das Schema, das die Tabelle enthält.
partition_cols list Eine Liste mit einer oder mehreren Spalten, die für die Partitionierung der Tabelle verwendet werden sollen.
cluster_by_auto bool Aktivieren Sie die automatische Flüssigkeitsgruppierung auf dem Tisch. Dies kann mit cluster_by kombiniert werden, und die Spalten werden definiert, die als anfängliche Clusteringschlüssel verwendet werden sollen, gefolgt von der Überwachung und automatischen Aktualisierungen der Schlüsselauswahl basierend auf der Arbeitslast. Siehe Automatische Flüssigkeitsclusterung.
cluster_by list Aktivieren des Liquid Clustering für die Tabelle und Definieren der Spalten, die als Clusterschlüssel verwendet werden sollen. Siehe Verwenden von Flüssigclustering für Tabellen.
schema str oder StructType Eine Schemadefinition für die Tabelle. Schemas können als SQL-DDL-Zeichenfolge oder mit Python StructType definiert werden
expect_all, expect_all_or_dropexpect_all_or_fail dict Datenqualitätseinschränkungen für die Tabelle. Bietet dasselbe Verhalten und verwendet dieselbe Syntax wie Erwartungsdekoratorfunktionen, ist jedoch als Parameter implementiert Siehe Erwartungen.
row_filter str (Öffentliche Vorschau) Eine Zeilenfilterklausel für die Tabelle. Siehe Veröffentlichen von Tabellen mit Zeilenfiltern und Spaltenmasken.