Referenční informace k vlastnostem Delta Live Tables
Tento článek obsahuje referenční informace o specifikaci nastavení JSON a vlastnostech tabulek Delta Live Tables v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:
Konfigurace kanálu Delta Live Tables
Pole |
---|
id Typ: string Globálně jedinečný identifikátor pro tento kanál. Identifikátor je přiřazen systémem a nelze ho změnit. |
name Typ: string Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní. |
storage Typ: string Umístění v DBFS nebo cloudovém úložišti, kde se ukládají výstupní data a metadata požadovaná ke spuštění kanálu. Tabulky a metadata jsou uloženy v podadresářích tohoto umístění. storage Pokud není nastavení zadáno, systém nastaví výchozí umístění v dbfs:/pipelines/ .Nastavení storage nelze po vytvoření kanálu změnit. |
configuration Typ: object Volitelný seznam nastavení pro přidání do konfigurace Sparku clusteru, který bude kanál spouštět. Tato nastavení čte modul runtime Delta Live Tables a je k dispozici pro dotazy kanálu prostřednictvím konfigurace Sparku. Prvky musí být formátované jako key:value páry. |
libraries Typ: array of objects Pole poznámkových bloků obsahující kód kanálu a požadované artefakty. |
clusters Typ: array of objects Pole specifikací pro clustery ke spuštění kanálu. Pokud není zadaný, kanály automaticky vyberou výchozí konfiguraci clusteru pro kanál. |
development Typ: boolean Příznak označující, jestli se má kanál spustit v development nebo production režim.Výchozí hodnota je true |
notifications Typ: array of objects Volitelná pole specifikací pro e-mailová oznámení při dokončení aktualizace kanálu selže s chybou opakovatelnou, selže s chybou, která se opakovatelná chyba nebo tok selže. |
continuous Typ: boolean Příznak označující, jestli se má kanál spouštět nepřetržitě. Výchozí hodnota je false . |
target Typ: string Název databáze pro zachování výstupních dat kanálu. Konfigurace target nastavení umožňuje zobrazit a dotazovat výstupní data kanálu z uživatelského rozhraní Azure Databricks. |
channel Typ: string Verze modulu runtime Delta Live Tables, která se má použít. Podporované hodnoty jsou: * preview a otestujte kanál s připravovanými změnami verze modulu runtime.* current pro použití aktuální verze modulu runtime.Pole channel je nepovinné. Výchozí hodnota jecurrent . Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy. |
edition Zadejte string Produktová edice Delta Live Tables ke spuštění kanálu. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu: * CORE ke spouštění úloh ingestování streamování.* PRO ke spouštění úloh ingestování streamování a změn zachytávání dat (CDC).* ADVANCED ke spouštění úloh ingestování streamování, úloh CDC a úloh, které vyžadují očekávání delta živých tabulek k vynucení omezení kvality dat.Pole edition je nepovinné. Výchozí hodnota jeADVANCED . |
photon Typ: boolean Příznak označující, jestli se má kanál spustit pomocí funkce Co je Photon? Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton. Pole photon je nepovinné. Výchozí hodnota je false . |
pipelines.maxFlowRetryAttempts Typ: int Maximální početpokusůch Výchozí hodnota je dvě. Ve výchozím nastavení se při opakovaném selhání pokusí modul runtime Delta Live Tables spustit tok třikrát, včetně původního pokusu. |
pipelines.numUpdateRetryAttempts Typ: int Maximální počet pokusůoch Opakování se spustí jako úplná aktualizace. Výchozí hodnota je pět. Tento parametr se vztahuje pouze na aktivované aktualizace spuštěné v produkčním režimu. Když se kanál spustí v režimu vývoje, nebude se opakovat. |
Vlastnosti tabulky Delta Live Tables
Kromě vlastností tabulky podporovaných službou Delta Lake můžete nastavit následující vlastnosti tabulky.
Vlastnosti tabulky |
---|
pipelines.autoOptimize.managed Výchozí: true Povolí nebo zakáže automatickou plánovanou optimalizaci této tabulky. |
pipelines.autoOptimize.zOrderCols Výchozí: Žádné Volitelný řetězec obsahující čárkami oddělený seznam názvů sloupců podle pořadí vykreslování této tabulky. Například pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Výchozí: true Určuje, jestli je pro tuto tabulku povolená úplná aktualizace. |
Vlastnosti tabulky CDC
Poznámka:: Tyto vlastnosti pro řízení chování správy objektůmbstone jsou zastaralé a nahrazeny nastavením kanálu. Všechny existující nebo nové kanály by měly používat nová nastavení kanálu. Viz Správa náhrobků ovládacích prvků pro dotazy typu 1 typu SCD.
Následující vlastnosti tabulky jsou přidány pro řízení chování správy náhrobků pro DELETE
události při použití CDC:
Vlastnosti tabulky |
---|
pipelines.cdc.tombstoneGCThresholdInSeconds Výchozí hodnota: 5 minut Nastavte tuto hodnotu tak, aby odpovídala nejvyššímu očekávanému intervalu mezi daty mimo pořadí. |
pipelines.cdc.tombstoneGCFrequencyInSeconds Výchozí hodnota: 60 sekund Určuje, jak často se kontrolují náhrobky pro vyčištění. |
Viz APPLY CHANGES API: Zjednodušení zachytávání dat změn v rozdílových živých tabulkách.
Interval triggeru kanálů
Můžete zadat interval triggeru kanálu pro celý kanál Delta Live Tables nebo jako součást deklarace datové sady. Viz interval triggeru Pipelines( Kanály).
pipelines.trigger.interval |
---|
Výchozí hodnota je založená na typu toku: * Pět sekund pro dotazy streamování. * Minuta pro úplné dotazy, pokud jsou všechna vstupní data ze zdrojů Delta. * Deset minut pro úplné dotazy, pokud některé zdroje dat nemusí být delta. Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky: * second , seconds * minute , minutes * hour , hours * day , days Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například: * {"pipelines.trigger.interval" : "1 hour"} * {"pipelines.trigger.interval" : "10 seconds"} * {"pipelines.trigger.interval" : "30 second"} * {"pipelines.trigger.interval" : "1 minute"} * {"pipelines.trigger.interval" : "10 minutes"} * {"pipelines.trigger.interval" : "10 minute"} |
Atributy clusteru, které nejsou nastavené uživatelem
Vzhledem k tomu, že rozdílové živé tabulky spravují životní cyklus clusteru, mnoho nastavení clusteru je nastaveno pomocí dynamických tabulek Delta a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující tabulka uvádí tato nastavení a důvody, proč je nelze nastavit ručně.
Pole |
---|
cluster_name Delta Live Tables nastavuje názvy clusterů používaných ke spouštění aktualizací kanálu. Tyto názvy nelze přepsat. |
data_security_mode access_mode Tyto hodnoty jsou automaticky nastaveny systémem. |
spark_version Clustery Delta Live Tables běží na vlastní verzi modulu Databricks Runtime, která se neustále aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat. |
autotermination_minutes Vzhledem k tomu, že rozdílové živé tabulky spravují automatické ukončení clusteru a logiku opětovného použití, není možné přepsat čas automatického ukončení clusteru. |
runtime_engine I když toto pole můžete řídit povolením Funkce Photon pro kanál, nemůžete tuto hodnotu nastavit přímo. |
effective_spark_version Tato hodnota je automaticky nastavena systémem. |
cluster_source Toto pole je nastaveno systémem a je jen pro čtení. |
docker_image Vzhledem k tomu, že rozdílové živé tabulky spravují životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů. |
workload_type Tato hodnota je nastavena systémem a nelze ji přepsat. |