Delen via


Naslaginformatie over eigenschappen van Delta Live Tables

In dit artikel vindt u een overzicht van de JSON-instellingsspecificatie en tabeleigenschappen van Delta Live Tables in Azure Databricks. Zie de volgende artikelen voor meer informatie over het gebruik van deze verschillende eigenschappen en configuraties:

Pijplijnconfiguraties voor Delta Live Tables

Velden
id

Type: string

Een wereldwijd unieke id voor deze pijplijn. De id wordt toegewezen door het systeem en kan niet worden gewijzigd.
name

Type: string

Een gebruiksvriendelijke naam voor deze pijplijn. De naam kan worden gebruikt om pijplijntaken in de gebruikersinterface te identificeren.
storage

Type: string

Een locatie in DBFS of cloudopslag waar uitvoergegevens en metagegevens die vereist zijn voor pijplijnuitvoering, worden opgeslagen. Tabellen en metagegevens worden opgeslagen in submappen van deze locatie.

Wanneer de storage instelling niet is opgegeven, wordt het systeem standaard ingesteld op een locatie in dbfs:/pipelines/.

De storage instelling kan niet worden gewijzigd nadat een pijplijn is gemaakt.
configuration

Type: object

Een optionele lijst met instellingen die moeten worden toegevoegd aan de Spark-configuratie van het cluster waarop de pijplijn wordt uitgevoerd. Deze instellingen worden gelezen door de Delta Live Tables-runtime en zijn beschikbaar voor pijplijnquery's via de Spark-configuratie.

Elementen moeten worden opgemaakt als key:value paren.
libraries

Type: array of objects

Een matrix van notebooks met de pijplijncode en vereiste artefacten.
clusters

Type: array of objects

Een matrix met specificaties voor de clusters om de pijplijn uit te voeren.

Als dit niet is opgegeven, selecteren pijplijnen automatisch een standaardclusterconfiguratie voor de pijplijn.
development

Type: boolean

Een vlag die aangeeft of de pijplijn moet worden uitgevoerd in
development of production modus.

De standaardwaarde is true.
notifications

Type: array of objects

Een optionele reeks specificaties voor e-mailmeldingen wanneer een pijplijnupdate is voltooid, mislukt met een fout die opnieuw kan worden geprobeerd, mislukt met een fout die niet opnieuw kan worden geprobeerd of een stroom mislukt.
continuous

Type: boolean

Een vlag die aangeeft of de pijplijn continu moet worden uitgevoerd.

De standaardwaarde is false.
target

Type: string

De naam van een database voor het persistent maken van pijplijnuitvoergegevens. Als u de target instelling configureert, kunt u de uitvoergegevens van de pijplijn bekijken en er query's op uitvoeren vanuit de Gebruikersinterface van Azure Databricks.
channel

Type: string

De versie van de Delta Live Tables-runtime die moet worden gebruikt. De ondersteunde waarden zijn:

* preview om uw pijplijn te testen met toekomstige wijzigingen in de runtimeversie.
* current om de huidige runtimeversie te gebruiken.

Het veld channel is optioneel. De standaardwaarde is
current. Databricks raadt aan om de huidige runtimeversie voor productieworkloads te gebruiken.
edition

Typ string

De producteditie Delta Live Tables om de pijplijn uit te voeren. Met deze instelling kunt u de beste producteditie kiezen op basis van de vereisten van uw pijplijn:

* CORE om streaming-opnameworkloads uit te voeren.
* PRO voor het uitvoeren van streaming-opname- en wijzigingsgegevensopnameworkloads (CDC).
* ADVANCED voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor Delta Live Tables verwachtingen nodig hebben om beperkingen voor gegevenskwaliteit af te dwingen.

Het veld edition is optioneel. De standaardwaarde is
ADVANCED.
photon

Type: boolean

Een vlag die aangeeft of photon moet worden gebruikt om de pijplijn uit te voeren. Photon is de Krachtige Spark-engine van Azure Databricks. Pijplijnen met foton worden gefactureerd tegen een ander tarief dan niet-Photon-pijplijnen.

Het veld photon is optioneel. De standaardwaarde is false.
pipelines.maxFlowRetryAttempts

Type: int

Het maximum aantal pogingen om een stroom opnieuw uit te voeren voordat een pijplijnupdate mislukt wanneer er een fout optreedt die opnieuw kan worden geprobeerd.

De standaardwaarde is twee. Wanneer er een fout optreedt die opnieuw kan worden geprobeerd, probeert de Delta Live Tables-runtime de stroom drie keer uit te voeren, inclusief de oorspronkelijke poging.
pipelines.numUpdateRetryAttempts

Type: int

Het maximum aantal pogingen om een update opnieuw uit te voeren voordat de update mislukt wanneer er een fout optreedt die opnieuw kan worden geprobeerd. De nieuwe poging wordt uitgevoerd als een volledige update.

De standaardwaarde is vijf. Deze parameter is alleen van toepassing op geactiveerde updates die worden uitgevoerd in de productiemodus. Er is geen nieuwe poging wanneer uw pijplijn wordt uitgevoerd in de ontwikkelingsmodus.

Tabeleigenschappen van Delta Live Tables

Naast de tabeleigenschappen die door Delta Lake worden ondersteund, kunt u de volgende tabeleigenschappen instellen.

Tabeleigenschappen
pipelines.autoOptimize.managed

Standaardwaarde: true

Hiermee schakelt u automatisch geplande optimalisatie van deze tabel in of uit.
pipelines.autoOptimize.zOrderCols

Standaard: Geen

Een optionele tekenreeks met een door komma's gescheiden lijst met kolomnamen om deze tabel op z-volgorde te orden. Bijvoorbeeld pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Standaardwaarde: true

Hiermee bepaalt u of een volledige vernieuwing is toegestaan voor deze tabel.

Eigenschappen van CDC-tabel

opmerking:: deze eigenschappen voor het beheren van tombstone-beheergedrag worden afgeschaft en vervangen door pijplijninstellingen. Bestaande of nieuwe pijplijnen moeten gebruikmaken van de nieuwe pijplijninstellingen. Zie Control tombstone-beheer voor SCD-query's van type 1.

De volgende tabeleigenschappen worden toegevoegd om het gedrag van tombstone-beheer voor gebeurtenissen te DELETE beheren wanneer u CDC gebruikt:

Tabeleigenschappen
pipelines.cdc.tombstoneGCThresholdInSeconds

Standaard: 5 minuten

Stel deze waarde in zodat deze overeenkomt met het hoogst verwachte interval tussen out-of-ordergegevens.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Standaardwaarde: 60 seconden

Bepaalt hoe vaak tombstones worden gecontroleerd op opschonen.

Zie de APPLY CHANGES API's: Vereenvoudig het vastleggen van wijzigingsgegevens met Delta Live Tables.

Triggerinterval voor pijplijnen

U kunt een pijplijntriggerinterval opgeven voor de gehele Delta Live Tables-pijplijn of als onderdeel van een gegevenssetdeclaratie. Zie het triggerinterval voor pijplijnen.

pipelines.trigger.interval
De standaardwaarde is gebaseerd op het stroomtype:

* Vijf seconden voor streamingquery's.
* Eén minuut voor volledige query's wanneer alle invoergegevens afkomstig zijn uit Delta-bronnen.
* Tien minuten voor volledige query's wanneer sommige gegevensbronnen mogelijk niet-Delta zijn.

De waarde is een getal plus de tijdseenheid. Hier volgen de geldige tijdseenheden:

* second, seconds
* minute, minutes
* hour, hours
* day, days

U kunt de enkelvoudige of meervoudseenheid gebruiken bij het definiëren van de waarde, bijvoorbeeld:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Clusterkenmerken die geen gebruikerssettabel zijn

Omdat Delta Live Tables de levenscyclus van clusters beheert, worden veel clusterinstellingen ingesteld door Delta Live Tables en kunnen ze niet handmatig worden geconfigureerd door gebruikers, in een pijplijnconfiguratie of in een clusterbeleid dat wordt gebruikt door een pijplijn. De volgende tabel bevat deze instellingen en waarom ze niet handmatig kunnen worden ingesteld.

Velden
cluster_name

Delta Live Tables stelt de namen in van de clusters die worden gebruikt om pijplijnupdates uit te voeren. Deze namen kunnen niet worden overschreven.
data_security_mode
access_mode

Deze waarden worden automatisch ingesteld door het systeem.
spark_version

Delta Live Tables-clusters worden uitgevoerd op een aangepaste versie van Databricks Runtime die voortdurend wordt bijgewerkt met de nieuwste functies. De versie van Spark is gebundeld met de Databricks Runtime-versie en kan niet worden overschreven.
autotermination_minutes

Omdat Delta Live Tables automatische beëindiging van clusters beheert en logica opnieuw gebruikt, kan de tijd voor automatische beëindiging van het cluster niet worden overschreven.
runtime_engine

Hoewel u dit veld kunt beheren door Photon in te schakelen voor uw pijplijn, kunt u deze waarde niet rechtstreeks instellen.
effective_spark_version

Deze waarde wordt automatisch ingesteld door het systeem.
cluster_source

Dit veld wordt ingesteld door het systeem en heeft het kenmerk Alleen-lezen.
docker_image

Omdat Delta Live Tables de levenscyclus van het cluster beheert, kunt u geen aangepaste container met pijplijnclusters gebruiken.
workload_type

Deze waarde wordt ingesteld door het systeem en kan niet worden overschreven.