Riferimento alle proprietà dichiarative per le pipeline di Lakeflow

2025-06-11

Questo articolo fornisce un riferimento per le specifiche e le proprietà della tabella JSON delle pipeline dichiarative di Lakeflow in Azure Databricks. Per altre informazioni sull'uso di queste varie proprietà e configurazioni, vedere gli articoli seguenti:

Configurazioni di Pipeline dichiarative di Lakeflow

Campi
`id` Tipo: `string` Identificatore univoco globale per questa pipeline. L'identificatore viene assegnato dal sistema e non può essere modificato.
`name` Tipo: `string` Nome facile da usare per questa pipeline. Il nome può essere usato per identificare i processi della pipeline nell'interfaccia utente.
`configuration` Tipo: `object` Elenco facoltativo di impostazioni da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline. Queste impostazioni vengono lette dal runtime di Lakeflow Declarative Pipelines e disponibili per le query della pipeline tramite la configurazione di Spark. Gli elementi devono essere formattati come coppie di `key:value`.
`libraries` Tipo: `array of objects` Matrice di notebook contenenti il codice della pipeline e gli artefatti necessari.
`clusters` Tipo: `array of objects` Matrice di specifiche per i cluster per l'esecuzione della pipeline. Se non viene specificato, le pipeline selezioneranno automaticamente una configurazione cluster predefinita per la pipeline.
`development` Tipo: `boolean` Indicatore che indica se eseguire la pipeline in `development` o modalità di `production`. Il valore predefinito è `true`
`notifications` Tipo: `array of objects` Una matrice facoltativa di specifiche per le notifiche tramite posta elettronica al termine di un aggiornamento della pipeline, ha esito negativo con un errore riprovabile, ha esito negativo con un errore non ritentabile o un flusso non riesce.
`continuous` Tipo: `boolean` Indicatore che indica se eseguire la pipeline in modo continuo. Il valore predefinito è `false`.
`catalog` Tipo: `string` Nome del catalogo predefinito per la pipeline, in cui vengono pubblicati tutti i set di dati e i metadati per la pipeline. L'impostazione di questo valore abilita Unity Catalog per la pipeline. Se non è stato impostato, la pipeline pubblica nel metastore Hive legacy usando il percorso specificato in `storage`. In modalità di pubblicazione legacy specifica il catalogo contenente lo schema di destinazione in cui vengono pubblicati tutti i set di dati della pipeline corrente. Visualizza lo schema IN DIRETTA (legacy) .
`schema` Tipo: `string` Nome dello schema predefinito per la pipeline, in cui tutti i set di dati e i metadati per la pipeline vengono pubblicati per impostazione predefinita. Vedere Impostare il catalogo e lo schema di destinazione.
`target` (eredità) Tipo: `string` Nome dello schema di destinazione in cui vengono pubblicati tutti i set di dati definiti nella pipeline corrente. L'impostazione di `target` anziché `schema` configura la pipeline per l'uso della modalità di pubblicazione legacy. Visualizza lo schema IN DIRETTA (legacy) .
`storage` (eredità) Tipo: `string` Posizione su DBFS o nell'archiviazione cloud dove vengono memorizzati i dati di output e i metadati necessari per l'esecuzione della pipeline. Le tabelle e i metadati sono archiviati nelle sottodirectory di questa posizione. Quando l'impostazione `storage` non è specificata, il sistema utilizzerà per impostazione predefinita un percorso in `dbfs:/pipelines/`. L'impostazione `storage` non può essere modificata dopo la creazione di una pipeline.
`channel` Tipo: `string` Versione del runtime delle Pipeline Declarative di Lakeflow da utilizzare. I valori supportati sono: `preview` per testare la pipeline con le modifiche imminenti alla versione del runtime. `current` usare la versione corrente di runtime. Il campo `channel` è facoltativo. Il valore predefinito è `current`. Databricks consiglia di usare la versione di runtime corrente per i carichi di lavoro di produzione.
`edition` Tipo `string` Edizione del prodotto di Lakeflow Declarative Pipelines per eseguire la pipeline. Questa impostazione consente di scegliere l'edizione del prodotto migliore in base ai requisiti della pipeline: `CORE` per eseguire flussi di dati in streaming. `PRO` per eseguire carichi di lavoro di streaming per l'ingestione e il change data capture (CDC). `ADVANCED` per eseguire carichi di lavoro di ingestione in streaming, carichi di lavoro CDC e carichi di lavoro che richiedono le aspettative delle Pipeline Dichiarative di Lakeflow per applicare vincoli sulla qualità dei dati. Il campo `edition` è facoltativo. Il valore predefinito è `ADVANCED`.
`photon` Tipo: `boolean` Un flag che indica se utilizzare What is Photon? per eseguire la pipeline. Photon è il motore Spark ad alte prestazioni di Azure Databricks. Le pipeline abilitate per photon vengono fatturate a una tariffa diversa rispetto alle pipeline non Foton. Il campo `photon` è facoltativo. Il valore predefinito è `false`.
`pipelines.maxFlowRetryAttempts` Tipo: `int` Se si verifica un errore ripetibile durante un aggiornamento della pipeline, questo è il numero massimo di tentativi di ripetizione di un flusso prima che l'aggiornamento della pipeline fallisca. Impostazione predefinita: due tentativi di ripetizione. Quando si verifica un errore riprovabile, il runtime di Lakeflow Declarative Pipelines tenta di eseguire il flusso tre volte, incluso il tentativo originale.
`pipelines.numUpdateRetryAttempts` Tipo: `int` Se si verifica un errore riprovabile durante un aggiornamento, si tratta del numero massimo di tentativi di ripetizione dell'aggiornamento prima di non riuscire definitivamente l'aggiornamento. Il nuovo tentativo viene eseguito come aggiornamento completo. Questo parametro si applica solo alle pipeline in esecuzione in modalità di produzione. I ritentativi non vengono eseguiti se la pipeline viene eseguita in modalità sviluppo o quando si esegue un aggiornamento `Validate`. Predefinito Cinque per le pipeline attivate. Illimitato per le pipeline continue.

Proprietà della tabella delle pipeline dichiarative di Lakeflow

Oltre alle proprietà della tabella supportate da Delta Lake, è possibile impostare le proprietà della tabella seguenti.

Proprietà della tabella
`pipelines.autoOptimize.zOrderCols` Impostazione predefinita: Nessuno Stringa facoltativa contenente un elenco di nomi di colonna separati da virgole per ordinare questa tabella in base all'ordine z. Ad esempio, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Impostazione predefinita: `true` Controlla se per questa tabella è consentito un aggiornamento completo.
`pipelines.autoOptimize.managed` Impostazione predefinita: `true` Abilita o disabilita l'ottimizzazione programmata automaticamente di questa tabella. Per le pipeline gestite dall'ottimizzazione predittiva, questa proprietà non viene usata.

intervallo di trigger delle pipeline

È possibile specificare un intervallo di trigger della pipeline per l'intera pipeline o come parte di una dichiarazione del set di dati. Fare riferimento a Impostare l'intervallo di trigger per le pipeline continue.

`pipelines.trigger.interval`
Il valore predefinito è basato sul tipo di flusso: Cinque secondi per le query di streaming. Un minuto per le query complete quando tutti i dati di input provengono da origini Delta. Dieci minuti per le query complete quando alcune origini dati potrebbero non essere Delta. Il valore è un numero più l'unità temporale. Di seguito sono riportate le unità di tempo valide: `second`, `seconds` `minute`, `minutes` `hour`, `hours` `day`, `days` È possibile usare l'unità singolare o plurale quando si definisce il valore, ad esempio: `{"pipelines.trigger.interval" : "1 hour"}` `{"pipelines.trigger.interval" : "10 seconds"}` `{"pipelines.trigger.interval" : "30 second"}` `{"pipelines.trigger.interval" : "1 minute"}` `{"pipelines.trigger.interval" : "10 minutes"}` `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Il valore predefinito è basato sul tipo di flusso:

Cinque secondi per le query di streaming.
Un minuto per le query complete quando tutti i dati di input provengono da origini Delta.
Dieci minuti per le query complete quando alcune origini dati potrebbero non essere Delta.

Il valore è un numero più l'unità temporale. Di seguito sono riportate le unità di tempo valide:

second, seconds
minute, minutes
hour, hours
day, days

È possibile usare l'unità singolare o plurale quando si definisce il valore, ad esempio:

{"pipelines.trigger.interval" : "1 hour"}
{"pipelines.trigger.interval" : "10 seconds"}
{"pipelines.trigger.interval" : "30 second"}
{"pipelines.trigger.interval" : "1 minute"}
{"pipelines.trigger.interval" : "10 minutes"}
{"pipelines.trigger.interval" : "10 minute"}

Attributi cluster non impostabili dall'utente

Poiché Lakeflow Declarative Pipelines gestisce i cicli di vita del cluster, molte impostazioni del cluster vengono impostate da Pipeline dichiarative di Lakeflow e non possono essere configurate manualmente dagli utenti, in una configurazione della pipeline o in criteri del cluster usati da una pipeline. Nella tabella seguente sono elencate queste impostazioni e il motivo per cui non possono essere impostate manualmente.

Campi
`cluster_name` Lakeflow Declarative Pipelines imposta i nomi dei cluster usati per eseguire gli aggiornamenti della pipeline. Questi nomi non possono essere modificati.
`data_security_mode` `access_mode` Questi valori vengono impostati automaticamente dal sistema.
`spark_version` I cluster Di Lakeflow Declarative Pipelines vengono eseguiti in una versione personalizzata di Databricks Runtime che viene continuamente aggiornata per includere le funzionalità più recenti. La versione di Spark è in bundle con la versione di Databricks Runtime e non può essere sottoposta a override.
`autotermination_minutes` Poiché Lakeflow Declarative Pipelines gestisce la terminazione automatica e la logica di riutilizzo del cluster, non è possibile eseguire l'override del tempo di terminazione automatica del cluster.
`runtime_engine` Anche se è possibile controllare questo campo abilitando Photon per la pipeline, non è possibile impostare direttamente questo valore.
`effective_spark_version` Questo valore viene impostato automaticamente dal sistema.
`cluster_source` Questo campo viene impostato dal sistema ed è di sola lettura.
`docker_image` Poiché Lakeflow Declarative Pipelines gestisce il ciclo di vita del cluster, non è possibile usare un contenitore personalizzato con cluster di pipeline.
`workload_type` Questo valore viene impostato dal sistema e non può essere sottoposto a override.

Condividi tramite

Riferimento alle proprietà dichiarative per le pipeline di Lakeflow

Configurazioni di Pipeline dichiarative di Lakeflow

Proprietà della tabella delle pipeline dichiarative di Lakeflow

intervallo di trigger delle pipeline

Attributi cluster non impostabili dall'utente

Commenti e suggerimenti

Risorse aggiuntive