Freigeben über


Referenzieren von Delta Live Tables-Eigenschaften

Dieser Artikel enthält eine Referenz zu den JSON-Einstellungsspezifikationen und Tabelleneigenschaften von Delta Live Tables in Azure Databricks. Weitere Informationen zur Verwendung dieser verschiedenen Eigenschaften und Konfigurationen finden Sie in den folgenden Artikeln:

Konfigurationen für Delta Live Tables-Pipelines

Felder
id

Typ: string

Dies ist ein global eindeutiger Bezeichner für diese Pipeline. Der Bezeichner wird vom System zugewiesen und kann nicht geändert werden.
name

Typ: string

Dies ist ein Anzeigename für diese Pipeline. Der Name kann verwendet werden, um Pipelineaufträge auf der Benutzeroberfläche zu identifizieren.
storage

Typ: string

Dies ist ein Speicherort im DBFS oder Cloudspeicher, an dem für die Pipelineausführung erforderliche Ausgabedaten und Metadaten gespeichert werden. Tabellen und Metadaten werden in Unterverzeichnissen dieses Speicherorts gespeichert.

Wenn die storage-Einstellung nicht angegeben ist, verwendet das System standardmäßig einen Speicherort in dbfs:/pipelines/.

Die storage-Einstellung kann nach dem Erstellen einer Pipeline nicht mehr geändert werden.
configuration

Typ: object

Dies ist eine optionale Liste der Einstellungen, die der Spark-Konfiguration des Clusters hinzugefügt werden sollen, der die Pipeline ausführt. Diese Einstellungen werden von der Delta Live Tables-Runtime gelesen und sind für Pipelineabfragen über die Spark-Konfiguration verfügbar.

Elemente müssen als key:value-Paare formatiert werden.
libraries

Typ: array of objects

Dies ist ein Array von Notebooks, das den Pipelinecode und die erforderlichen Artefakte enthält.
clusters

Typ: array of objects

Dies ist ein Array von Spezifikationen für die Cluster zum Ausführen der Pipeline.

Wenn dies nicht angegeben wird, wählen Pipelines automatisch eine Standardclusterkonfiguration für die Pipeline aus.
development

Typ: boolean

Dies ist ein Flag, das angibt, ob die Pipeline im
Modus development oder production ausgeführt werden soll.

Der Standardwert ist true
notifications

Typ: array of objects

Ein optionales Array von Spezifikationen für E-Mail-Benachrichtigungen, wenn ein Pipelineupdate abgeschlossen ist, schlägt mit einem wiederholungsfähigen Fehler fehl, schlägt mit einem nicht behebbaren Fehler fehl, oder ein Flow ist fehlerhaft.
continuous

Typ: boolean

Dies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll.

Der Standardwert ist false.
target

Typ: string

Dies ist der Name einer Datenbank zum Beibehalten von Pipelineausgabedaten. Wenn Sie die target-Einstellung konfigurieren, können Sie die Ausgabedaten der Pipeline über die Azure Databricks-Benutzeroberfläche abfragen.
channel

Typ: string

Die Version der zu verwendenden Delta Live Tables-Runtime. Die unterstützten Werte sind:

* preview, um Ihre Pipeline mit anstehenden Änderungen an der Runtimeversion zu testen.
* current, um die aktuelle Runtimeversion zu verwenden.

Das Feld channel ist optional. Der Standardwert lautet
current. Databricks empfiehlt die Verwendung der aktuellen Runtimeversion für Produktionsworkloads.
edition

Geben Sie string ein

Die Produktedition von Delta Live Tables für die Ausführung der Pipeline. Mit dieser Einstellung können Sie die beste Produktedition basierend auf den Anforderungen Ihrer Pipeline auswählen:

* CORE zum Ausführen von Workloads zur Streamerfassung
* PRO zum Ausführen von Workloads zur Streamerfassung und CDC-Workloads (Change Data Capture)
* ADVANCED zum Ausführen von Workloads zur Streamerfassung, CDC-Workloads und Workloads, die Delta Live Tables-Erwartungen erfordern, um Einschränkungen bei der Datenqualität zu erzwingen

Das Feld edition ist optional. Der Standardwert lautet
ADVANCED.
photon

Typ: boolean

Dieses Flag gibt an, ob für die Ausführung der Pipeline Was ist Photon? verwendet werden soll. Photon ist die Hochleistungs-Spark-Engine von Azure Databricks. Pipelines mit Photon-Unterstützung werden mit einer anderen Rate als Nicht-Photon-Pipelines abgerechnet.

Das Feld photon ist optional. Der Standardwert ist false.
pipelines.maxFlowRetryAttempts

Typ: int

Die maximale Anzahl von Versuchen, einen Flow zu wiederholen, bevor ein Pipelineupdate als fehlgeschlagen betrachtet wird, wenn ein wiederholungsfähiger Fehler auftritt.

Der Standardwert ist 2. Wenn ein wiederholungsfähiger Fehler auftritt, versucht die Delta Live Tables-Runtime standardmäßig dreimal, den Flow auszuführen, einschließlich des ursprünglichen Versuchs.
pipelines.numUpdateRetryAttempts

Typ: int

Die maximale Anzahl von Versuchen, ein Update zu wiederholen, bevor das Update fehlschlägt, wenn ein wiederholungsfähiger Fehler auftritt. Der Wiederholungsversuch wird als vollständiges Update ausgeführt.

Der Standardwert ist fünf. Dieser Parameter gilt nur für ausgelöste Updates, die im Produktionsmodus ausgeführt werden. Es gibt keinen Wiederholungsversuch, wenn Ihre Pipeline im Entwicklungsmodus ausgeführt wird.

Delta Live Tables-Tabelleneigenschaften

Zusätzlich zu den von Delta Lake unterstützten Tabelleneigenschaften können Sie die folgenden Tabelleneigenschaften festlegen.

Tabelleneigenschaften
pipelines.autoOptimize.managed

Standard: true

Aktiviert oder deaktiviert die automatisch geplante Optimierung dieser Tabelle
pipelines.autoOptimize.zOrderCols

Standardwert: Keiner

Eine optionale Zeichenfolge mit einer durch Trennzeichen getrennten Liste von Spaltennamen, nach der diese Tabelle in Z-Reihenfolge geordnet werden soll. Beispiel: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Standard: true

Steuert, ob eine vollständige Aktualisierung für diese Tabelle zulässig ist

CDC-Tabelleneigenschaften

Hinweis: Diese Eigenschaften zum Steuern des Tombstone-Verwaltungsverhaltens sind veraltet und werden durch Pipelineeinstellungen ersetzt. Alle vorhandenen oder neuen Pipelines sollten die neuen Pipelineeinstellungen verwenden. Weitere Informationen finden Sie unter Steuern der Tombstone-Verwaltung für SCD-Typ 1-Abfragen.

Die folgenden Tabelleneigenschaften werden hinzugefügt, um das Verhalten der Tombstone-Verwaltung für DELETE-Ereignisse bei der Verwendung von CDC zu steuern:

Tabelleneigenschaften
pipelines.cdc.tombstoneGCThresholdInSeconds

Standard: 5 Minuten

Legen Sie diesen Wert so fest, dass er dem höchsten erwarteten Intervall zwischen Daten in nicht ordnungsgemäßer Reihenfolge entspricht.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Standardwert: 60 Sekunden

Steuert, wie häufig Tombstones auf Bereinigung überprüft werden.

Weitere Informationen finden Sie unter Vereinfachtes CDC (Change Data Capture) mit der APPLY CHANGES-API in Delta Live Tables.

Triggerintervall für Pipelines

Sie können ein Pipelinetriggerintervall für die gesamte Delta Live Tables-Pipeline oder als Teil einer Datasetdeklaration angeben. Weitere Informationen finden Sie unter Triggerintervall für Pipelines.

pipelines.trigger.interval
Der Standardwert basiert auf dem Flowtyp:

* Fünf Sekunden für Streamingabfragen
* Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Deltaquellen stammen
* Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise keine Deltaquellen sind.

Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Clusterattribute, die nicht von Benutzer*innen festgelegt werden können

Da Delta Live Tables den Clusterlebenszyklus verwaltet, werden viele Clustereinstellungen von Delta Live Tables festgelegt und können nicht manuell von Benutzern in einer Pipelinekonfiguration oder in einer Clusterrichtlinie, die von einer Pipeline verwendet wird, konfiguriert werden. In der folgenden Tabelle sind diese Einstellungen aufgeführt und der Grund, warum sie nicht manuell festgelegt werden können.

Felder
cluster_name

Delta Live Tables legt die Namen der Cluster fest, die zum Ausführen von Pipelineupdates verwendet werden. Diese Namen können nicht überschrieben werden.
data_security_mode
access_mode

Diese Werte werden automatisch vom System festgelegt.
spark_version

Delta Live Tables-Cluster werden in einer benutzerdefinierten Version von Databricks Runtime ausgeführt, die ständig aktualisiert wird, um die neuesten Features einzuschließen. Die Spark-Version ist mit der Databricks Runtime-Version gebündelt und kann nicht überschrieben werden.
autotermination_minutes

Da Delta Live Tables die automatische Beendigungs- und Wiederverwendungslogik des Clusters verwaltet, kann der Zeitpunkt der automatischen Beendigung des Clusters nicht außer Kraft gesetzt werden.
runtime_engine

Obwohl Sie dieses Feld steuern können, indem Sie Photon für Ihre Pipeline aktivieren, können Sie diesen Wert nicht direkt festlegen.
effective_spark_version

Dieser Wert wird automatisch vom System festgelegt.
cluster_source

Dieses Feld wird vom System festgelegt und ist schreibgeschützt.
docker_image

Da Delta Live Tables den Clusterlebenszyklus verwaltet, können Sie keinen benutzerdefinierten Container mit Pipelineclustern verwenden.
workload_type

Dieser Wert wird vom System festgelegt und kann nicht überschrieben werden.