Referenční informace k vlastnostem Delta Live Tables

Tento článek obsahuje referenční informace o specifikaci nastavení JSON a vlastnostech tabulek Delta Live Tables v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:

Konfigurace kanálu Delta Live Tables

Pole
id

Typ: string

Globálně jedinečný identifikátor pro tento kanál. Identifikátor je přiřazen systémem a nelze ho změnit.
name

Typ: string

Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní.
storage

Typ: string

Umístění v DBFS nebo cloudovém úložišti, kde se ukládají výstupní data a metadata požadovaná ke spuštění kanálu. Tabulky a metadata jsou uloženy v podadresářích tohoto umístění.

storage Pokud není nastavení zadáno, systém nastaví výchozí umístění v dbfs:/pipelines/.

Nastavení storage nelze po vytvoření kanálu změnit.
configuration

Typ: object

Volitelný seznam nastavení pro přidání do konfigurace Sparku clusteru, který bude kanál spouštět. Tato nastavení čte modul runtime Delta Live Tables a je k dispozici pro dotazy kanálu prostřednictvím konfigurace Sparku.

Prvky musí být formátované jako key:value páry.
libraries

Typ: array of objects

Pole poznámkových bloků obsahující kód kanálu a požadované artefakty.
clusters

Typ: array of objects

Pole specifikací pro clustery ke spuštění kanálu.

Pokud není zadaný, kanály automaticky vyberou výchozí konfiguraci clusteru pro kanál.
development

Typ: boolean

Příznak označující, jestli se má kanál spustit v
development nebo production režim.

Výchozí hodnota je true
notifications

Typ: array of objects

Volitelná pole specifikací pro e-mailová oznámení při dokončení aktualizace kanálu selže s chybou opakovatelnou, selže s chybou, která se opakovatelná chyba nebo tok selže.
continuous

Typ: boolean

Příznak označující, jestli se má kanál spouštět nepřetržitě.

Výchozí hodnota je false.
target

Typ: string

Název databáze pro zachování výstupních dat kanálu. Konfigurace target nastavení umožňuje zobrazit a dotazovat výstupní data kanálu z uživatelského rozhraní Azure Databricks.
channel

Typ: string

Verze modulu runtime Delta Live Tables, která se má použít. Podporované hodnoty jsou:

* preview a otestujte kanál s připravovanými změnami verze modulu runtime.
* current pro použití aktuální verze modulu runtime.

Pole channel je nepovinné. Výchozí hodnota je
current. Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy.
edition

Zadejte string

Produktová edice Delta Live Tables ke spuštění kanálu. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu:

* CORE ke spouštění úloh ingestování streamování.
* PRO ke spouštění úloh ingestování streamování a změn zachytávání dat (CDC).
* ADVANCED ke spouštění úloh ingestování streamování, úloh CDC a úloh, které vyžadují očekávání delta živých tabulek k vynucení omezení kvality dat.

Pole edition je nepovinné. Výchozí hodnota je
ADVANCED.
photon

Typ: boolean

Příznak označující, jestli se má kanál spustit pomocí funkce Co je Photon? Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton.

Pole photon je nepovinné. Výchozí hodnota je false.
pipelines.maxFlowRetryAttempts

Typ: int

Maximální početpokusůch

Výchozí hodnota je dvě. Ve výchozím nastavení se při opakovaném selhání pokusí modul runtime Delta Live Tables spustit tok třikrát, včetně původního pokusu.
pipelines.numUpdateRetryAttempts

Typ: int

Maximální počet pokusůoch Opakování se spustí jako úplná aktualizace.

Výchozí hodnota je pět. Tento parametr se vztahuje pouze na aktivované aktualizace spuštěné v produkčním režimu. Když se kanál spustí v režimu vývoje, nebude se opakovat.

Vlastnosti tabulky Delta Live Tables

Kromě vlastností tabulky podporovaných službou Delta Lake můžete nastavit následující vlastnosti tabulky.

Vlastnosti tabulky
pipelines.autoOptimize.managed

Výchozí: true

Povolí nebo zakáže automatickou plánovanou optimalizaci této tabulky.
pipelines.autoOptimize.zOrderCols

Výchozí: Žádné

Volitelný řetězec obsahující čárkami oddělený seznam názvů sloupců podle pořadí vykreslování této tabulky. Například pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Výchozí: true

Určuje, jestli je pro tuto tabulku povolená úplná aktualizace.

Vlastnosti tabulky CDC

Poznámka:: Tyto vlastnosti pro řízení chování správy objektůmbstone jsou zastaralé a nahrazeny nastavením kanálu. Všechny existující nebo nové kanály by měly používat nová nastavení kanálu. Viz Správa náhrobků ovládacích prvků pro dotazy typu 1 typu SCD.

Následující vlastnosti tabulky jsou přidány pro řízení chování správy náhrobků pro DELETE události při použití CDC:

Vlastnosti tabulky
pipelines.cdc.tombstoneGCThresholdInSeconds

Výchozí hodnota: 5 minut

Nastavte tuto hodnotu tak, aby odpovídala nejvyššímu očekávanému intervalu mezi daty mimo pořadí.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Výchozí hodnota: 60 sekund

Určuje, jak často se kontrolují náhrobky pro vyčištění.

Viz APPLY CHANGES API: Zjednodušení zachytávání dat změn v rozdílových živých tabulkách.

Interval triggeru kanálů

Můžete zadat interval triggeru kanálu pro celý kanál Delta Live Tables nebo jako součást deklarace datové sady. Viz interval triggeru Pipelines( Kanály).

pipelines.trigger.interval
Výchozí hodnota je založená na typu toku:

* Pět sekund pro dotazy streamování.
* Minuta pro úplné dotazy, pokud jsou všechna vstupní data ze zdrojů Delta.
* Deset minut pro úplné dotazy, pokud některé zdroje dat nemusí být delta.

Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atributy clusteru, které nejsou nastavené uživatelem

Vzhledem k tomu, že rozdílové živé tabulky spravují životní cyklus clusteru, mnoho nastavení clusteru je nastaveno pomocí dynamických tabulek Delta a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující tabulka uvádí tato nastavení a důvody, proč je nelze nastavit ručně.

Pole
cluster_name

Delta Live Tables nastavuje názvy clusterů používaných ke spouštění aktualizací kanálu. Tyto názvy nelze přepsat.
data_security_mode
access_mode

Tyto hodnoty jsou automaticky nastaveny systémem.
spark_version

Clustery Delta Live Tables běží na vlastní verzi modulu Databricks Runtime, která se neustále aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat.
autotermination_minutes

Vzhledem k tomu, že rozdílové živé tabulky spravují automatické ukončení clusteru a logiku opětovného použití, není možné přepsat čas automatického ukončení clusteru.
runtime_engine

I když toto pole můžete řídit povolením Funkce Photon pro kanál, nemůžete tuto hodnotu nastavit přímo.
effective_spark_version

Tato hodnota je automaticky nastavena systémem.
cluster_source

Toto pole je nastaveno systémem a je jen pro čtení.
docker_image

Vzhledem k tomu, že rozdílové živé tabulky spravují životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů.
workload_type

Tato hodnota je nastavena systémem a nelze ji přepsat.