Eseguire un aggiornamento in una pipeline Delta Live Tables
Questo articolo illustra cos'è un aggiornamento in una pipeline Delta Live Tables e come eseguirlo.
Dopo aver creato una pipeline e averla pronta per l'esecuzione, si avvia un aggiornamento. Un aggiornamento della pipeline esegue le operazioni seguenti:
- Avvia un cluster con la configurazione corretta.
- Individua tutte le tabelle e le viste definite e verifica eventuali errori di analisi, ad esempio nomi di colonne non validi, dipendenze mancanti ed errori di sintassi.
- Crea o aggiorna tabelle e viste con i dati più recenti disponibili.
Usando un aggiornamento convalidato, è possibile verificare la presenza di problemi nel codice sorgente di una pipeline senza attendere la creazione o l'aggiornamento delle tabelle. Questa funzionalità è utile quando si sviluppano o si testano pipeline perché consente di trovare e correggere rapidamente gli errori nella pipeline, ad esempio nomi di tabella o colonna non corretti.
Per informazioni su come creare una pipeline, vedere Configurare una pipeline di tabelle live Delta.
Avviare un aggiornamento della pipeline
Azure Databricks offre diverse opzioni per avviare gli aggiornamenti della pipeline, tra cui:
- Nell'interfaccia utente di Delta Live Tables sono disponibili le opzioni seguenti:
- Fare clic sul pulsante pagina dei dettagli della pipeline.
- Nell'elenco delle pipeline fare clic su nella colonna Azioni.
- Per avviare un aggiornamento in un notebook, fare clic su Delta Live Tables > Avvio nella barra degli strumenti del notebook. Vedere Aprire o eseguire una pipeline Delta Live Tables da un notebook.
- È possibile attivare pipeline a livello di codice usando l'API o l'interfaccia della riga di comando. Vedere API della pipeline.
- È possibile pianificare la pipeline come processo usando l'interfaccia utente di Delta Live Tables o l'interfaccia utente dei processi. Vedere Pianificare una pipeline.
Nota
Il comportamento predefinito per gli aggiornamenti delle pipeline attivati manualmente usando uno di questi metodi consiste nell'aggiornare tutti.
Come Delta Live Tables aggiorna tabelle e viste
Le tabelle e le viste aggiornate e le modalità di aggiornamento di tali tabelle e viste dipendono dal tipo di aggiornamento:
- Aggiorna tutto: tutte le tabelle vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming, le nuove righe vengono accodate alla tabella.
- Aggiorna tutto completo: tutte le tabelle vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming, Delta Live Tables tenta di cancellare tutti i dati da ogni tabella e quindi di caricare tutti i dati dall'origine di streaming.
- Aggiorna selezione: il comportamento di
refresh selection
è identico arefresh all
ma consente di aggiornare solo le tabelle selezionate. Le tabelle selezionate vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming, le nuove righe vengono aggiunte alla tabella. - Selezione dell'aggiornamento completo: il comportamento di
full refresh selection
è identico afull refresh all
ma consente di eseguire un aggiornamento completo solo delle tabelle selezionate. Le tabelle selezionate vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming, le tabelle Live Delta tentano di cancellare tutti i dati da ogni tabella e quindi caricare tutti i dati dall'origine di streaming.
Per le viste materializzate esistenti, un aggiornamento ha lo stesso comportamento di SQL REFRESH
in una vista materializzata. Per le nuove viste materializzate, il comportamento è identico a quello di un'operazione CREATE
SQL.
Avviare un aggiornamento della pipeline per le tabelle selezionate
Facoltativamente, è possibile rielaborare i dati solo per le tabelle selezionate nella pipeline. Durante lo sviluppo, ad esempio, si modifica una singola tabella e si vuole ridurre il tempo di test oppure un aggiornamento della pipeline non riesce e si vogliono aggiornare solo le tabelle non riuscite.
Nota
È possibile usare l'aggiornamento selettivo solo con pipeline attivate.
Per avviare un aggiornamento che aggiorna solo le tabelle selezionate, nella pagina Dettagli pipeline:
Fare clic su Seleziona tabelle per l'aggiornamento. Verrà visualizzata la finestra di dialogo Seleziona tabelle per l'aggiornamento.
Se non viene visualizzato il pulsante Seleziona tabelle per l'aggiornamento , verificare che nella pagina Dettagli pipeline sia visualizzato l'aggiornamento più recente e che l'aggiornamento sia stato completato. Se non viene visualizzato un daG per l'aggiornamento più recente, ad esempio perché l'aggiornamento non è riuscito, il pulsante Seleziona tabelle per l'aggiornamento non viene visualizzato.
Per selezionare le tabelle da aggiornare, fare clic su ogni tabella. Le tabelle selezionate sono evidenziate ed etichettate. Per rimuovere una tabella dall'aggiornamento, fare di nuovo clic sulla tabella.
Fare clic su Aggiorna selezione.
Nota
Il pulsante Aggiorna selezione mostra il numero di tabelle selezionate tra parentesi.
Per rielaborare i dati già inseriti per le tabelle selezionate, fare clic accanto al pulsante Aggiorna selezione e fare clic su Aggiorna selezione completa.
Avviare un aggiornamento della pipeline per le tabelle non riuscite
Se l’aggiornamento di una pipeline ha esito negativo a causa di errori in una o più tabelle nel grafico della pipeline, è possibile avviare un aggiornamento delle sole tabelle non riuscite e di eventuali dipendenze downstream.
Nota
Le tabelle escluse non vengono aggiornate, anche se dipendono da una tabella non riuscita.
Per aggiornare le tabelle non riuscite, nella pagina Dettagli pipeline fare clic su Aggiorna tabelle non riuscite.
Per aggiornare le sole tabelle non riuscite selezionate:
Fare clic su accanto al pulsante Aggiorna tabelle non riuscite e fare clic su Seleziona tabelle per l'aggiornamento. Verrà visualizzata la finestra di dialogo Seleziona tabelle per l'aggiornamento.
Per selezionare le tabelle da aggiornare, fare clic su ogni tabella. Le tabelle selezionate sono evidenziate ed etichettate. Per rimuovere una tabella dall'aggiornamento, fare di nuovo clic sulla tabella.
Fare clic su Aggiorna selezione.
Nota
Il pulsante Aggiorna selezione mostra il numero di tabelle selezionate tra parentesi.
Per rielaborare i dati già inseriti per le tabelle selezionate, fare clic accanto al pulsante Aggiorna selezione e fare clic su Aggiorna selezione completa.
Controllare la presenza di errori in una pipeline senza attendere l'aggiornamento delle tabelle
Importante
La funzionalità di aggiornamento Validate
di Delta Live Tables è disponibile in anteprima pubblica.
Per verificare se il codice sorgente di una pipeline è valido senza eseguire un aggiornamento completo, usare Convalida. Un aggiornamento Validate
risolve le definizioni di set di dati e flussi definiti nella pipeline, ma non materializza né pubblica alcun set di dati. Gli errori rilevati durante la convalida, ad esempio nomi di tabella o colonna non corretti, vengono segnalati nell'interfaccia utente.
Per eseguire un Validate
aggiornamento, fare clic sulla pagina dei dettagli della pipeline accanto a Avvia e fare clic su Convalida.
Al termine dell'aggiornamento Validate
, il registro eventi mostra gli eventi correlati solo all'aggiornamento Validate
e non vengono visualizzate metriche nel dag. Se vengono rilevati errori, i dettagli sono disponibili nel registro eventi.
È possibile visualizzare i risultati solo per l'aggiornamento Validate
più recente. Se l'aggiornamento Validate
era l'aggiornamento eseguito più di recente, è possibile visualizzare i risultati selezionandolo nella cronologia degli aggiornamenti. Se un altro aggiornamento viene eseguito dopo l'aggiornamento Validate
, i risultati non sono più disponibili nell'interfaccia utente.
Come scegliere i limiti della pipeline
Una pipeline Delta Live Tables può elaborare gli aggiornamenti di una singola tabella, di molte tabelle con relazioni dipendenti, di molte tabelle senza relazioni o di più flussi indipendenti di tabelle con relazioni dipendenti. Questa sezione contiene considerazioni utili per determinare come suddividere le pipeline.
Le pipeline delta live tables di dimensioni maggiori offrono diversi vantaggi. Di seguito sono elencate le quattro opzioni disponibili.
- Usare in modo più efficiente le risorse cluster.
- Ridurre il numero di pipeline nell'area di lavoro.
- Ridurre la complessità dell'orchestrazione del flusso di lavoro.
Di seguito sono riportate alcune raccomandazioni comuni su come suddividere le pipeline di elaborazione:
- Suddividere le funzionalità in base al team. Ad esempio, il team di dati potrebbe mantenere le pipeline per trasformare i dati mentre gli analisti dei dati mantengono pipeline che analizzano i dati trasformati.
- Suddividere le funzionalità in base ai limiti specifici dell'applicazione per ridurre l'associazione e facilitare il riutilizzo delle funzionalità comuni.
Modalità di sviluppo e di produzione
È possibile ottimizzare l'esecuzione della pipeline passando dalla modalità di sviluppo a quella di produzione. Usare i pulsanti nell'interfaccia utente pipeline per passare da una modalità all'altra. Per impostazione predefinita, le pipeline vengono eseguite in modalità di sviluppo.
Quando si esegue la pipeline in modalità di sviluppo, il sistema Delta Live Tables esegue le operazioni seguenti:
- Riutilizza un cluster per evitare il sovraccarico dei riavvii. Per impostazione predefinita, i cluster vengono eseguiti per due ore quando è abilitata la modalità di sviluppo. È possibile modificare questa impostazione con l'impostazione
pipelines.clusterShutdown.delay
in Configurare le risorse di calcolo per una pipeline di tabelle live Delta. - Disabilita i tentativi di pipeline in modo da poter rilevare e correggere immediatamente gli errori.
In modalità di produzione, il sistema Delta Live Tables esegue le operazioni seguenti:
- Riavvia il cluster per errori ripristinabili specifici, incluse perdite di memoria e credenziali non aggiornate.
- Ritenta l'esecuzione in caso di errori specifici, ad esempio un errore di avvio di un cluster.
Nota
Il passaggio dalla modalità di sviluppo a quella di produzione controlla solo il comportamento di esecuzione del cluster e della pipeline. I percorsi di archiviazione e gli schemi di destinazione nel catalogo per la pubblicazione di tabelle devono essere configurati nelle impostazioni della pipeline e non sono interessati quando si passa da una modalità all'altra.
Pianificare una pipeline
È possibile avviare una pipeline attivata manualmente o eseguire la pipeline in base a una pianificazione con un processo di Azure Databricks. È possibile creare e pianificare un processo con una singola attività della pipeline direttamente nell'interfaccia utente di Delta Live Tables o aggiungere un'attività della pipeline a un flusso di lavoro con più attività nell'interfaccia utente dei processi. Vedere Attività pipeline Delta Live Tables per i processi.
Per creare un processo a singola attività e una pianificazione per il processo nell'interfaccia utente di Delta Live Tables:
- Fare clic su Pianifica > Aggiungi una pianificazione. Se la pipeline è inclusa in uno o più processi pianificati, il pulsante Pianifica viene aggiornato per visualizzare il numero di pianificazioni esistenti, ad esempio Pianificazione (5).
- Immettere un nome per il processo nel campo Nome processo.
- Impostare la Pianificazione su Pianificato.
- Specificare il periodo, l'ora di inizio e il fuso orario.
- Configurare uno o più indirizzi di posta elettronica per ricevere avvisi all'avvio, all'esito positivo o negativo della pipeline.
- Cliccare su Crea.