Informazioni di riferimento sulle proprietà delle tabelle live delta
Questo articolo fornisce informazioni di riferimento sulle specifiche delle impostazioni JSON delle tabelle live Delta e sulle proprietà della tabella in Azure Databricks. Per altre informazioni sull'uso di queste varie proprietà e configurazioni, vedere gli articoli seguenti:
- Configurare le impostazioni della pipeline per le tabelle live Delta
- Guida all'API Tabelle live delta
Configurazioni della pipeline delle tabelle live delta
Campi |
---|
id Tipo: string Identificatore univoco globale per questa pipeline. L'identificatore viene assegnato dal sistema e non può essere modificato. |
name Tipo: string Nome descrittivo per questa pipeline. Il nome può essere usato per identificare i processi della pipeline nell'interfaccia utente. |
storage Tipo: string Percorso in DBFS o archiviazione cloud in cui vengono archiviati i dati di output e i metadati necessari per l'esecuzione della pipeline. Le tabelle e i metadati vengono archiviati nelle sottodirectory di questo percorso. Quando l'impostazione storage non è specificata, per impostazione predefinita il sistema verrà impostato su un percorso in dbfs:/pipelines/ .L'impostazione storage non può essere modificata dopo la creazione di una pipeline. |
configuration Tipo: object Elenco facoltativo di impostazioni da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline. Queste impostazioni vengono lette dal runtime delle tabelle live Delta e disponibili per le query della pipeline tramite la configurazione di Spark. Gli elementi devono essere formattati come key:value coppie. |
libraries Tipo: array of objects Matrice di notebook contenenti il codice della pipeline e gli artefatti necessari. |
clusters Tipo: array of objects Matrice di specifiche per i cluster per l'esecuzione della pipeline. Se non viene specificato, le pipeline selezioneranno automaticamente una configurazione cluster predefinita per la pipeline. |
development Tipo: boolean Flag che indica se eseguire la pipeline in development o production modalità.Il valore predefinito è true . |
notifications Tipo: array of objects Una matrice facoltativa di specifiche per le notifiche tramite posta elettronica al termine di un aggiornamento della pipeline, ha esito negativo con un errore riprovabile, ha esito negativo con un errore non ritentabile o un flusso non riesce. |
continuous Tipo: boolean Flag che indica se eseguire la pipeline in modo continuo. Il valore predefinito è false . |
target Tipo: string Nome di un database per rendere persistenti i dati di output della pipeline. La configurazione dell'impostazione target consente di visualizzare ed eseguire query sui dati di output della pipeline dall'interfaccia utente di Azure Databricks. |
channel Tipo: string Versione del runtime di Tabelle live Delta da usare. I valori supportati sono: * preview per testare la pipeline con le modifiche future alla versione di runtime.* current per usare la versione di runtime corrente.Il campo channel è facoltativo. Il valore predefinito ècurrent . Databricks consiglia di usare la versione di runtime corrente per i carichi di lavoro di produzione. |
edition Digitare string Edizione del prodotto Delta Live Tables per eseguire la pipeline. Questa impostazione consente di scegliere l'edizione del prodotto migliore in base ai requisiti della pipeline: * CORE per eseguire carichi di lavoro di inserimento in streaming.* PRO per eseguire carichi di lavoro di inserimento e change data capture (CDC) di streaming.* ADVANCED per eseguire carichi di lavoro di inserimento di streaming, carichi di lavoro CDC e carichi di lavoro che richiedono aspettative di tabelle live Delta per applicare vincoli di qualità dei dati.Il campo edition è facoltativo. Il valore predefinito èADVANCED . |
photon Tipo: boolean Flag che indica se usare What is Photon? per eseguire la pipeline. Photon è il motore Spark ad alte prestazioni di Azure Databricks. Le pipeline abilitate per photon vengono fatturate a una tariffa diversa rispetto alle pipeline non Foton. Il campo photon è facoltativo. Il valore predefinito è false . |
pipelines.maxFlowRetryAttempts Tipo: int Numero massimo di tentativi di ripetizione di un flusso prima dell'esito negativo di un aggiornamento della pipeline quando si verifica un errore riprovabile. Il valore predefinito è due. Per impostazione predefinita, quando si verifica un errore riprovabile, il runtime delta live tables tenta di eseguire il flusso tre volte, incluso il tentativo originale. |
pipelines.numUpdateRetryAttempts Tipo: int Numero massimo di tentativi di ripetizione di un aggiornamento prima dell'esito negativo dell'aggiornamento quando si verifica un errore riprovabile. Il nuovo tentativo viene eseguito come aggiornamento completo. Il valore predefinito è cinque. Questo parametro si applica solo agli aggiornamenti attivati eseguiti in modalità di produzione. Non viene eseguito alcun nuovo tentativo quando la pipeline viene eseguita in modalità di sviluppo. |
Proprietà delle tabelle live delta
Oltre alle proprietà della tabella supportate da Delta Lake, è possibile impostare le proprietà della tabella seguenti.
Proprietà delle tabelle |
---|
pipelines.autoOptimize.managed Impostazione predefinita: true Abilita o disabilita l'ottimizzazione programmata automaticamente di questa tabella. |
pipelines.autoOptimize.zOrderCols Impostazione predefinita: nessuna Stringa facoltativa contenente un elenco delimitato da virgole di nomi di colonna in base all'ordine z di questa tabella. Ad esempio, pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Impostazione predefinita: true Controlla se per questa tabella è consentito un aggiornamento completo. |
Proprietà della tabella CDC
nota: queste proprietà per controllare il comportamento di gestione della rimozione definitiva sono deprecate e sostituite dalle impostazioni della pipeline. Le nuove pipeline esistenti o nuove devono usare le nuove impostazioni della pipeline. Vedere Controllare la gestione della rimozione definitiva per le query di tipo 1 del tipo 1.
Le proprietà della tabella seguenti vengono aggiunte per controllare il comportamento della gestione della rimozione definitiva per DELETE
gli eventi quando si usa CDC:
Proprietà delle tabelle |
---|
pipelines.cdc.tombstoneGCThresholdInSeconds Impostazione predefinita: 5 minuti Impostare questo valore in modo che corrisponda all'intervallo previsto più alto tra i dati non ordinati. |
pipelines.cdc.tombstoneGCFrequencyInSeconds Impostazione predefinita: 60 secondi Controlla la frequenza con cui vengono controllate le lapide per la pulizia. |
Vedere APPLY CHANGES API :Semplificare Change Data Capture in Tabelle Live Delta.
Intervallo di trigger delle pipeline
È possibile specificare un intervallo di trigger della pipeline per l'intera pipeline di tabelle live delta o come parte di una dichiarazione del set di dati. Vedere Intervallo di trigger delle pipeline.
pipelines.trigger.interval |
---|
Il valore predefinito è basato sul tipo di flusso: * Cinque secondi per le query di streaming. * Un minuto per le query complete quando tutti i dati di input provengono da origini Delta. * Dieci minuti per le query complete quando alcune origini dati potrebbero non essere Delta. Il valore è un numero più l'unità temporale. Di seguito sono riportate le unità di tempo valide: * second , seconds * minute , minutes * hour , hours * day , days È possibile usare l'unità singolare o plurale quando si definisce il valore, ad esempio: * {"pipelines.trigger.interval" : "1 hour"} * {"pipelines.trigger.interval" : "10 seconds"} * {"pipelines.trigger.interval" : "30 second"} * {"pipelines.trigger.interval" : "1 minute"} * {"pipelines.trigger.interval" : "10 minutes"} * {"pipelines.trigger.interval" : "10 minute"} |
Attributi del cluster che non sono impostabili dall'utente
Poiché le tabelle live Delta gestiscono i cicli di vita del cluster, molte impostazioni del cluster vengono impostate da Tabelle live Delta e non possono essere configurate manualmente dagli utenti, in una configurazione della pipeline o in criteri del cluster usati da una pipeline. Nella tabella seguente sono elencate queste impostazioni e il motivo per cui non possono essere impostate manualmente.
Campi |
---|
cluster_name Delta Live Tables imposta i nomi dei cluster usati per eseguire gli aggiornamenti della pipeline. Questi nomi non possono essere sottoposti a override. |
data_security_mode access_mode Questi valori vengono impostati automaticamente dal sistema. |
spark_version I cluster Delta Live Table vengono eseguiti in una versione personalizzata di Databricks Runtime che viene costantemente aggiornata in modo da includere le funzionalità più recenti. La versione di Spark è in bundle con la versione di Databricks Runtime e non può essere sottoposta a override. |
autotermination_minutes Poiché Delta Live Tables gestisce la terminazione automatica e la logica di riutilizzo del cluster, non è possibile eseguire l'override del tempo di terminazione automatica del cluster. |
runtime_engine Anche se è possibile controllare questo campo abilitando Photon per la pipeline, non è possibile impostare direttamente questo valore. |
effective_spark_version Questo valore viene impostato automaticamente dal sistema. |
cluster_source Questo campo viene impostato dal sistema ed è di sola lettura. |
docker_image Poiché Delta Live Tables gestisce il ciclo di vita del cluster, non è possibile usare un contenitore personalizzato con cluster di pipeline. |
workload_type Questo valore viene impostato dal sistema e non può essere sottoposto a override. |