Referenzieren von Delta Live Tables-Eigenschaften

Artikel
03/18/2024

Dieser Artikel enthält eine Referenz zu den JSON-Einstellungsspezifikationen und Tabelleneigenschaften von Delta Live Tables in Azure Databricks. Weitere Informationen zur Verwendung dieser verschiedenen Eigenschaften und Konfigurationen finden Sie in den folgenden Artikeln:

Konfigurationen für Delta Live Tables-Pipelines

Felder
`id` Typ: `string` Dies ist ein global eindeutiger Bezeichner für diese Pipeline. Der Bezeichner wird vom System zugewiesen und kann nicht geändert werden.
`name` Typ: `string` Dies ist ein Anzeigename für diese Pipeline. Der Name kann verwendet werden, um Pipelineaufträge auf der Benutzeroberfläche zu identifizieren.
`storage` Typ: `string` Dies ist ein Speicherort im DBFS oder Cloudspeicher, an dem für die Pipelineausführung erforderliche Ausgabedaten und Metadaten gespeichert werden. Tabellen und Metadaten werden in Unterverzeichnissen dieses Speicherorts gespeichert. Wenn die `storage`-Einstellung nicht angegeben ist, verwendet das System standardmäßig einen Speicherort in `dbfs:/pipelines/`. Die `storage`-Einstellung kann nach dem Erstellen einer Pipeline nicht mehr geändert werden.
`configuration` Typ: `object` Dies ist eine optionale Liste der Einstellungen, die der Spark-Konfiguration des Clusters hinzugefügt werden sollen, der die Pipeline ausführt. Diese Einstellungen werden von der Delta Live Tables-Runtime gelesen und sind für Pipelineabfragen über die Spark-Konfiguration verfügbar. Elemente müssen als `key:value`-Paare formatiert werden.
`libraries` Typ: `array of objects` Dies ist ein Array von Notebooks, das den Pipelinecode und die erforderlichen Artefakte enthält.
`clusters` Typ: `array of objects` Dies ist ein Array von Spezifikationen für die Cluster zum Ausführen der Pipeline. Wenn dies nicht angegeben wird, wählen Pipelines automatisch eine Standardclusterkonfiguration für die Pipeline aus.
`development` Typ: `boolean` Dies ist ein Flag, das angibt, ob die Pipeline im Modus `development` oder `production` ausgeführt werden soll. Der Standardwert ist `true`
`notifications` Typ: `array of objects` Ein optionales Array von Spezifikationen für E-Mail-Benachrichtigungen, wenn ein Pipelineupdate abgeschlossen ist, schlägt mit einem wiederholungsfähigen Fehler fehl, schlägt mit einem nicht behebbaren Fehler fehl, oder ein Flow ist fehlerhaft.
`continuous` Typ: `boolean` Dies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll. Der Standardwert ist `false`.
`target` Typ: `string` Dies ist der Name einer Datenbank zum Beibehalten von Pipelineausgabedaten. Wenn Sie die `target`-Einstellung konfigurieren, können Sie die Ausgabedaten der Pipeline über die Azure Databricks-Benutzeroberfläche abfragen.
`channel` Typ: `string` Die Version der zu verwendenden Delta Live Tables-Runtime. Die unterstützten Werte sind: * `preview`, um Ihre Pipeline mit anstehenden Änderungen an der Runtimeversion zu testen. * `current`, um die aktuelle Runtimeversion zu verwenden. Das Feld `channel` ist optional. Der Standardwert lautet `current`. Databricks empfiehlt die Verwendung der aktuellen Runtimeversion für Produktionsworkloads.
`edition` Geben Sie `string` ein Die Produktedition von Delta Live Tables für die Ausführung der Pipeline. Mit dieser Einstellung können Sie die beste Produktedition basierend auf den Anforderungen Ihrer Pipeline auswählen: * `CORE` zum Ausführen von Workloads zur Streamerfassung * `PRO` zum Ausführen von Workloads zur Streamerfassung und CDC-Workloads (Change Data Capture) * `ADVANCED` zum Ausführen von Workloads zur Streamerfassung, CDC-Workloads und Workloads, die Delta Live Tables-Erwartungen erfordern, um Einschränkungen bei der Datenqualität zu erzwingen Das Feld `edition` ist optional. Der Standardwert lautet `ADVANCED`.
`photon` Typ: `boolean` Dieses Flag gibt an, ob für die Ausführung der Pipeline Was ist Photon? verwendet werden soll. Photon ist die Hochleistungs-Spark-Engine von Azure Databricks. Pipelines mit Photon-Unterstützung werden mit einer anderen Rate als Nicht-Photon-Pipelines abgerechnet. Das Feld `photon` ist optional. Der Standardwert ist `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Die maximale Anzahl von Versuchen, einen Flow zu wiederholen, bevor ein Pipelineupdate als fehlgeschlagen betrachtet wird, wenn ein wiederholungsfähiger Fehler auftritt. Der Standardwert ist 2. Wenn ein wiederholungsfähiger Fehler auftritt, versucht die Delta Live Tables-Runtime standardmäßig dreimal, den Flow auszuführen, einschließlich des ursprünglichen Versuchs.
`pipelines.numUpdateRetryAttempts` Typ: `int` Die maximale Anzahl von Versuchen, ein Update zu wiederholen, bevor das Update fehlschlägt, wenn ein wiederholungsfähiger Fehler auftritt. Der Wiederholungsversuch wird als vollständiges Update ausgeführt. Der Standardwert ist fünf. Dieser Parameter gilt nur für ausgelöste Updates, die im Produktionsmodus ausgeführt werden. Es gibt keinen Wiederholungsversuch, wenn Ihre Pipeline im Entwicklungsmodus ausgeführt wird.

Delta Live Tables-Tabelleneigenschaften

Zusätzlich zu den von Delta Lake unterstützten Tabelleneigenschaften können Sie die folgenden Tabelleneigenschaften festlegen.

Tabelleneigenschaften
`pipelines.autoOptimize.managed` Standard: `true` Aktiviert oder deaktiviert die automatisch geplante Optimierung dieser Tabelle
`pipelines.autoOptimize.zOrderCols` Standardwert: Keiner Eine optionale Zeichenfolge mit einer durch Trennzeichen getrennten Liste von Spaltennamen, nach der diese Tabelle in Z-Reihenfolge geordnet werden soll. Beispiel: `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Standard: `true` Steuert, ob eine vollständige Aktualisierung für diese Tabelle zulässig ist

CDC-Tabelleneigenschaften

Hinweis: Diese Eigenschaften zum Steuern des Tombstone-Verwaltungsverhaltens sind veraltet und werden durch Pipelineeinstellungen ersetzt. Alle vorhandenen oder neuen Pipelines sollten die neuen Pipelineeinstellungen verwenden. Weitere Informationen finden Sie unter Steuern der Tombstone-Verwaltung für SCD-Typ 1-Abfragen.

Die folgenden Tabelleneigenschaften werden hinzugefügt, um das Verhalten der Tombstone-Verwaltung für DELETE-Ereignisse bei der Verwendung von CDC zu steuern:

Tabelleneigenschaften
`pipelines.cdc.tombstoneGCThresholdInSeconds` Standard: 5 Minuten Legen Sie diesen Wert so fest, dass er dem höchsten erwarteten Intervall zwischen Daten in nicht ordnungsgemäßer Reihenfolge entspricht.
`pipelines.cdc.tombstoneGCFrequencyInSeconds` Standardwert: 60 Sekunden Steuert, wie häufig Tombstones auf Bereinigung überprüft werden.

Weitere Informationen finden Sie unter Vereinfachtes CDC (Change Data Capture) mit der APPLY CHANGES-API in Delta Live Tables.

Triggerintervall für Pipelines

Sie können ein Pipelinetriggerintervall für die gesamte Delta Live Tables-Pipeline oder als Teil einer Datasetdeklaration angeben. Weitere Informationen finden Sie unter Triggerintervall für Pipelines.

`pipelines.trigger.interval`
Der Standardwert basiert auf dem Flowtyp: * Fünf Sekunden für Streamingabfragen * Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Deltaquellen stammen * Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise keine Deltaquellen sind. Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten: * `second`, `seconds` * `minute`, `minutes` * `hour`, `hours` * `day`, `days` Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.: * `{"pipelines.trigger.interval" : "1 hour"}` * `{"pipelines.trigger.interval" : "10 seconds"}` * `{"pipelines.trigger.interval" : "30 second"}` * `{"pipelines.trigger.interval" : "1 minute"}` * `{"pipelines.trigger.interval" : "10 minutes"}` * `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Der Standardwert basiert auf dem Flowtyp:

* Fünf Sekunden für Streamingabfragen
* Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Deltaquellen stammen
* Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise keine Deltaquellen sind.

Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Clusterattribute, die nicht von Benutzer*innen festgelegt werden können

Da Delta Live Tables den Clusterlebenszyklus verwaltet, werden viele Clustereinstellungen von Delta Live Tables festgelegt und können nicht manuell von Benutzern in einer Pipelinekonfiguration oder in einer Clusterrichtlinie, die von einer Pipeline verwendet wird, konfiguriert werden. In der folgenden Tabelle sind diese Einstellungen aufgeführt und der Grund, warum sie nicht manuell festgelegt werden können.

Felder
`cluster_name` Delta Live Tables legt die Namen der Cluster fest, die zum Ausführen von Pipelineupdates verwendet werden. Diese Namen können nicht überschrieben werden.
`data_security_mode` `access_mode` Diese Werte werden automatisch vom System festgelegt.
`spark_version` Delta Live Tables-Cluster werden in einer benutzerdefinierten Version von Databricks Runtime ausgeführt, die ständig aktualisiert wird, um die neuesten Features einzuschließen. Die Spark-Version ist mit der Databricks Runtime-Version gebündelt und kann nicht überschrieben werden.
`autotermination_minutes` Da Delta Live Tables die automatische Beendigungs- und Wiederverwendungslogik des Clusters verwaltet, kann der Zeitpunkt der automatischen Beendigung des Clusters nicht außer Kraft gesetzt werden.
`runtime_engine` Obwohl Sie dieses Feld steuern können, indem Sie Photon für Ihre Pipeline aktivieren, können Sie diesen Wert nicht direkt festlegen.
`effective_spark_version` Dieser Wert wird automatisch vom System festgelegt.
`cluster_source` Dieses Feld wird vom System festgelegt und ist schreibgeschützt.
`docker_image` Da Delta Live Tables den Clusterlebenszyklus verwaltet, können Sie keinen benutzerdefinierten Container mit Pipelineclustern verwenden.
`workload_type` Dieser Wert wird vom System festgelegt und kann nicht überschrieben werden.

Freigeben über