Egenskapsreferens för Delta Live Tables

Den här artikeln innehåller en referens för JSON-inställningsspecifikationen för Delta Live Tables och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:

Pipelinekonfigurationer för Delta Live Tables

Fält
id

Typ: string

En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras.
name

Typ: string

Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet.
storage

Typ: string

En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen.

När inställningen storage inte har angetts kommer systemet som standard att vara en plats i dbfs:/pipelines/.

Det storage går inte att ändra inställningen när en pipeline har skapats.
configuration

Typ: object

En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av Delta Live Tables-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen.

Element måste formateras som key:value par.
libraries

Typ: array of objects

En matris med notebook-filer som innehåller pipelinekoden och nödvändiga artefakter.
clusters

Typ: array of objects

En matris med specifikationer för de kluster som ska köra pipelinen.

Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen.
development

Typ: boolean

En flagga som anger om pipelinen ska köras i
development eller production läge.

Standardvärdet är true
notifications

Typ: array of objects

En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas.
continuous

Typ: boolean

En flagga som anger om pipelinen ska köras kontinuerligt.

Standardvärdet är false.
target

Typ: string

Namnet på en databas för att bevara pipelineutdata. När du konfigurerar target inställningen kan du visa och köra frågor mot pipelinens utdata från Azure Databricks-användargränssnittet.
channel

Typ: string

Den version av Delta Live Tables-körningen som ska användas. De värden som stöds är:

* preview för att testa din pipeline med kommande ändringar i körningsversionen.
* current för att använda den aktuella körningsversionen.

Fältet channel är valfritt. Standardvärdet är
current. Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar.
edition

Skriv string

Delta Live Tables-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline:

* CORE för att köra strömmande inmatningsarbetsbelastningar.
* PRO för att köra arbetsbelastningar för strömmande inmatning och ändring av datainsamling (CDC).
* ADVANCED för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver förväntningar på Delta Live Tables för att framtvinga datakvalitetsbegränsningar.

Fältet edition är valfritt. Standardvärdet är
ADVANCED.
photon

Typ: boolean

En flagga som anger om du vill använda Vad är Photon? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras med en annan hastighet än icke-Photon-pipelines.

Fältet photon är valfritt. Standardvärdet är false.
pipelines.maxFlowRetryAttempts

Typ: int

Det maximala antalet försök att försöka igen ett flöde innan en pipelineuppdatering misslyckas när ett återförsöksbart fel inträffar.

Standardvärdet är två. När ett återförsöksbart fel inträffar försöker Delta Live Tables-körningen som standard att köra flödet tre gånger, inklusive det ursprungliga försöket.
pipelines.numUpdateRetryAttempts

Typ: int

Det maximala antalet försök att försöka göra en uppdatering igen innan uppdateringen misslyckas när ett återförsöksfel inträffar. Återförsöket körs som en fullständig uppdatering.

Standardvärdet är fem. Den här parametern gäller endast för utlösta uppdateringar som körs i produktionsläge. Det går inte att försöka igen när pipelinen körs i utvecklingsläge.

Tabellegenskaper för Delta Live Tables

Förutom de tabellegenskaper som stöds av Delta Lake kan du ange följande tabellegenskaper.

Tabellegenskaper
pipelines.autoOptimize.managed

Standard: true

Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen.
pipelines.autoOptimize.zOrderCols

Standard: Ingen

En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Standard: true

Styr om en fullständig uppdatering tillåts för den här tabellen.

CDC-tabellegenskaper

obs!: Dessa egenskaper för att styra tombstone-hanteringsbeteendet är inaktuella och ersätts av pipelineinställningar. Alla befintliga eller nya pipelines bör använda de nya pipelineinställningarna. Se Kontrollera tombstone-hantering för SCD-typ 1-frågor.

Följande tabellegenskaper läggs till för att styra beteendet för tombstone-hantering för DELETE händelser när du använder CDC:

Tabellegenskaper
pipelines.cdc.tombstoneGCThresholdInSeconds

Standard: 5 minuter

Ange det här värdet så att det matchar det högsta förväntade intervallet mellan out-of-order-data.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Standard: 60 sekunder

Styr hur ofta tombstones kontrolleras för rensning.

Se Förenklad insamling av ändringsdata med API:et APPLY CHANGES i Delta Live Tables.

Utlösarintervall för pipelines

Du kan ange ett pipeline-utlösarintervall för hela Delta Live Tables-pipelinen eller som en del av en datamängdsdeklaration. Se Intervall för pipelines-utlösare.

pipelines.trigger.interval
Standardvärdet baseras på flödestyp:

* Fem sekunder för strömmande frågor.
* En minut för fullständiga frågor när alla indata kommer från Delta-källor.
* Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta.

Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Klusterattribut som inte kan användas

Eftersom Delta Live Tables hanterar klusterlivscykler anges många klusterinställningar av Delta Live Tables och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.

Fält
cluster_name

Delta Live Tables anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas.
data_security_mode
access_mode

Dessa värden anges automatiskt av systemet.
spark_version

Delta Live Tables-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas.
autotermination_minutes

Eftersom Delta Live Tables hanterar logik för automatisk avslutning och återanvändning av kluster kan inte tiden för automatisk avslutning av klustret åsidosättas.
runtime_engine

Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt.
effective_spark_version

Det här värdet anges automatiskt av systemet.
cluster_source

Det här fältet anges av systemet och är skrivskyddat.
docker_image

Eftersom Delta Live Tables hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster.
workload_type

Det här värdet anges av systemet och kan inte åsidosättas.