Condividi tramite


Sviluppare ed eseguire il debug di pipeline ETL con l'editor di pipeline Lakeflow

Importante

Questa funzionalità è in Anteprima Pubblica.

Questo articolo descrive l'uso di Lakeflow Pipelines Editor per sviluppare ed eseguire il debug di pipeline ETL (estrazione, trasformazione e caricamento) nella Pipeline dichiarativa di Lakeflow Spark (SDP).

Annotazioni

L'editor delle pipeline di Lakeflow è abilitato per impostazione predefinita. È possibile disattivarlo o riabilitarlo se è stato disattivato. Vedere Abilitare l'editor delle pipeline di Lakeflow e il monitoraggio aggiornato.

Che cos'è l'Editor Lakeflow Pipelines?

Lakeflow Pipelines Editor è un IDE creato per lo sviluppo di pipeline. Combina tutte le attività di sviluppo della pipeline in una singola superficie, supportando flussi di lavoro code-first, organizzazione di codice basata su cartelle, esecuzione selettiva, anteprime dei dati e grafici della pipeline. Integrato con la piattaforma Azure Databricks, consente anche il controllo della versione, le revisioni del codice e le esecuzioni pianificate.

Panoramica dell'interfaccia utente dell'editor di Pipeline di Lakeflow

L'immagine seguente mostra l'editor delle pipeline di Lakeflow:

Editor di pipeline Lakeflow

L'immagine mostra le funzionalità seguenti:

  1. Browser asset della pipeline: creare, eliminare, rinominare e organizzare gli asset della pipeline. Include anche scorciatoie alla configurazione della pipeline.
  2. Editor di codice multi-file con schede: usare più file di codice associati a una pipeline.
  3. Barra degli strumenti specifica della pipeline: include le opzioni di configurazione della pipeline e include azioni di esecuzione a livello di pipeline.
  4. Grafico Aciclico Diretto (DAG) Interattivo: Ottieni una panoramica delle tue tabelle, apri la barra inferiore delle anteprime dati ed esegui altre azioni correlate alle tabelle.
  5. Anteprima dei dati: esaminare i dati delle tabelle di streaming e delle viste materializzate.
  6. Informazioni dettagliate sull'esecuzione a livello di tabella: ottenere informazioni dettagliate sull'esecuzione per tutte le tabelle o una singola tabella in una pipeline. Le analisi fanno riferimento all'esecuzione più recente della pipeline.
  7. Pannello Dei problemi: questa funzionalità riepiloga gli errori in tutti i file nella pipeline ed è possibile passare alla posizione in cui si è verificato l'errore all'interno di un file specifico. Integra gli indicatori di errore affissi nel codice.
  8. Esecuzione selettiva: l'editor di codice include funzionalità per lo sviluppo dettagliato, ad esempio la possibilità di aggiornare le tabelle solo nel file corrente usando l'azione Esegui file o una singola tabella.
  9. Struttura di cartelle della pipeline predefinita: le nuove pipeline includono una struttura di cartelle predefinita e un codice di esempio che è possibile usare come punto di partenza per la pipeline.
  10. Creazione semplificata della pipeline: specificare un nome, un catalogo e uno schema in cui le tabelle devono essere create per impostazione predefinita e viene creata una pipeline usando le impostazioni predefinite. In seguito è possibile modificare Le impostazioni dalla barra degli strumenti dell'editor della pipeline.

Creare una nuova pipeline ETL

Per creare una nuova pipeline ETL usando l'editor di Pipelines Lakeflow, seguire questa procedura:

  1. Nella parte superiore della barra laterale fare clic sull'icona Più.Nuovo e quindi selezionare Icona Pipeline.Pipeline ETL.

  2. Nella parte superiore è possibile assegnare alla pipeline un nome univoco.

  3. Sotto il nome è possibile visualizzare automaticamente il catalogo e lo schema predefiniti scelti. Modificare questi valori per assegnare alla pipeline impostazioni predefinite diverse.

    Il catalogo predefinito e lo schema predefinito sono i set di dati letti o scritti in quando non si qualificano i set di dati con un catalogo o uno schema nel codice. Per altre informazioni, vedere Oggetti di database in Azure Databricks .

  4. Selezionare l'opzione preferita per creare una pipeline scegliendo una delle opzioni seguenti:

    • Iniziare con il codice di esempio in SQL per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in SQL.
    • Iniziare con il codice di esempio in Python per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in Python.
    • Iniziare con una singola trasformazione per creare una nuova pipeline e una nuova struttura di cartelle, con un nuovo file di codice vuoto.
    • Aggiungere asset esistenti per creare una pipeline che è possibile associare ai file di codice esistenti nell'area di lavoro.

    È possibile avere file di codice sorgente SQL e Python nella pipeline ETL. Quando si crea una nuova pipeline e si sceglie un linguaggio per il codice di esempio, il linguaggio è solo per il codice di esempio incluso nella pipeline per impostazione predefinita.

  5. Quando si effettua la selezione, si viene reindirizzati alla pipeline appena creata.

    La pipeline ETL viene creata con le impostazioni predefinite seguenti:

    È possibile modificare queste impostazioni dalla barra degli strumenti della pipeline.

In alternativa, è possibile creare una pipeline ETL dal browser dell'area di lavoro:

  1. Fare clic su Area di lavoro nel pannello a sinistra.
  2. Selezionare qualsiasi cartella, incluse le cartelle Git.
  3. Fare clic su Crea nell'angolo in alto a destra e fare clic su Pipeline ETL.

È anche possibile creare una pipeline ETL dalla pagina processi e pipeline:

  1. Nell'area di lavoro fare clic sull'icona Flussi di lavoro.Processi e pipeline nella barra laterale.
  2. In Nuovo fare clic su Pipeline ETL.

Apri una pipeline ETL esistente

Esistono diversi modi per aprire una pipeline ETL esistente nell'editor di Pipeline di Lakeflow:

  • Aprire qualsiasi file di origine associato alla pipeline:

    1. Fare clic su Area di lavoro nel pannello laterale.
    2. Passare a una cartella con i file di codice sorgente per la pipeline.
    3. Fare clic sul file di codice sorgente per aprire la pipeline nell'editor.
  • Aprire una pipeline modificata di recente:

    • Dall'editor è possibile passare ad altre pipeline modificate di recente facendo clic sul nome della pipeline nella parte superiore del browser asset e scegliendo un'altra pipeline dall'elenco delle recenti visualizzate.
    • Dall'esterno dell'editor, dalla pagina Recenti sulla barra laterale sinistra aprire una pipeline o un file configurato come codice sorgente per una pipeline.
  • Quando si visualizza una pipeline nel prodotto, è possibile scegliere di modificare la pipeline:

    • Nella pagina di monitoraggio della pipeline fare clic sull'icona a forma di matita.Modificare la pipeline.
    • Nella pagina Esecuzioni del processo nella barra laterale sinistra, fai clic sulla scheda Processi e pipeline, quindi sull'icona del menu Kebab e su Modifica pipeline.
    • Quando si modifica un processo e si aggiunge un'attività della pipeline, è possibile fare clic sul pulsante apri nella nuova scheda icona quando si sceglie una pipeline in Pipeline.
  • Se si esplora Tutti i file nel browser asset e si apre un file di codice sorgente da un'altra pipeline, nella parte superiore dell'editor viene visualizzato un banner che richiede di aprire la pipeline associata.

Browser delle risorse della pipeline

Quando modifichi una pipeline, la barra laterale dell'area di lavoro a sinistra usa una modalità speciale denominata browser degli asset della pipeline. Per impostazione predefinita, il browser degli asset della pipeline è incentrato sulla radice della pipeline e sulle cartelle e i file all'interno della radice. È anche possibile scegliere di visualizzare Tutti i file per visualizzare i file all'esterno della radice della pipeline. Le schede aperte nell'editor della pipeline durante la modifica di una pipeline specifica vengono memorizzate e, quando si passa a un'altra pipeline, le schede aprono l'ultima volta che è stata modificata la pipeline vengono ripristinate.

Annotazioni

L'editor include anche contesti per la modifica di file SQL (denominati editor SQL di Databricks) e un contesto generale per la modifica dei file dell'area di lavoro che non sono file SQL o file della pipeline. Ognuno di questi contesti memorizza e ripristina le schede aperte l'ultima volta in cui è stato usato il contesto. È possibile cambiare contesto dalla parte superiore della barra laterale sinistra. Fare clic sull'intestazione per scegliere tra l'area di lavoro, l'editor SQL o le pipeline modificate di recente.

Cambio dei contesti dell'editor

Quando si apre un file dalla pagina del browser Area di lavoro, viene aperto nell'editor corrispondente per tale file. Se il file è associato a una pipeline, ossia l'editor di pipeline di Lakeflow.

Per aprire un file che non fa parte della pipeline, ma mantenere il contesto della pipeline, aprire il file dalla scheda Tutti i file del browser asset.

Il browser asset della pipeline include due schede:

  • Pipeline: qui è possibile trovare tutti i file associati alla pipeline. È possibile creare, eliminare, rinominare e organizzarli in cartelle. Questa scheda include anche collegamenti per la configurazione della pipeline e una visualizzazione grafica delle esecuzioni recenti.
  • Tutti i file: tutti gli altri asset dell'area di lavoro sono disponibili qui. Ciò può essere utile per trovare i file da aggiungere alla pipeline o visualizzare altri file correlati alla pipeline, ad esempio un file YAML che definisce un bundle di asset di Databricks.

Browser degli asset della pipeline

È possibile avere i tipi di file seguenti nella pipeline:

  • File di codice sorgente: questi file fanno parte della definizione del codice sorgente della pipeline, che può essere visualizzata in Impostazioni. Databricks consiglia di archiviare sempre i file di codice sorgente all'interno della cartella radice della pipeline; in caso contrario, vengono visualizzati in una sezione di file esterna nella parte inferiore del browser e hanno un set di funzionalità meno avanzato.
  • File di codice non sorgente: questi file vengono archiviati all'interno della cartella radice della pipeline, ma non fanno parte della definizione del codice sorgente della pipeline.

Importante

È necessario usare il browser degli asset della pipeline nella scheda Pipeline per gestire file e cartelle per la pipeline. In questo modo le impostazioni della pipeline vengono aggiornate correttamente. Lo spostamento o la ridenominazione di file e cartelle dal browser dell'area di lavoro o dalla scheda Tutti i file interrompono la configurazione della pipeline e quindi è necessario risolverli manualmente in Impostazioni.

Cartella radice

Il browser degli asset della pipeline è ancorato in una cartella radice della pipeline. Quando si crea una nuova pipeline, la cartella radice della pipeline viene creata nella home folder dell'utente e viene denominata come nome della pipeline.

È possibile modificare la cartella radice nel browser degli asset della pipeline. Ciò è utile se è stata creata una pipeline in una cartella e successivamente si vuole spostare tutti gli elementi in una cartella diversa. Ad esempio, la pipeline è stata creata in una cartella normale e si vuole spostare il codice sorgente in una cartella Git per il controllo della versione.

  1. Fare clic sull'icona del menu Kebab per aprire il menu di overflow della cartella radice.
  2. Fare clic su Configura nuova cartella radice.
  3. Nella Cartella radice pipeline, fai clic sull'icona della cartella e scegli un'altra cartella come cartella radice della pipeline.
  4. Fare clic su Salva.

Modificare la cartella radice della pipeline

Nell'icona del menu Kebab. Per la cartella radice, è anche possibile fare clic su Rinomina cartella radice per rinominare il nome della cartella. Qui è anche possibile fare clic su Sposta cartella radice per spostare la cartella radice, ad esempio in una cartella Git.

È anche possibile modificare la cartella radice della pipeline nelle impostazioni:

  1. Fare clic su Impostazioni.
  2. In Asset di codice, fare clic su Configura percorsi.
  3. Fare clic sull'Icona della cartella per modificare la cartella sotto cartella radice della pipeline.
  4. Fare clic su Salva.

Annotazioni

Se si modifica la cartella radice della pipeline, l'elenco di file visualizzato dal browser degli asset della pipeline è interessato, perché i file nella cartella radice precedente vengono visualizzati come file esterni.

Pipeline esistente senza cartella radice

Una pipeline esistente creata usando l'esperienza di modifica del notebook legacy non avrà una cartella radice configurata. Quando si apre una pipeline che non dispone di una cartella radice configurata, verrà richiesto di creare una cartella radice e organizzare i file di origine al suo interno.

È possibile ignorare questa operazione e continuare a modificare la pipeline senza impostare una cartella radice.

Se in un secondo momento si vuole configurare la cartella radice per la pipeline, seguire questa procedura:

  1. Nel browser degli asset della pipeline fare clic su Configura.
  2. Fare clic su Icona della cartella per selezionare la cartella principale della pipeline.
  3. Fare clic su Salva.

Nessuna cartella radice della pipeline

Struttura di cartelle predefinita

Quando si crea una nuova pipeline, viene creata una struttura di cartelle predefinita. Questa è la struttura consigliata per organizzare l'origine della pipeline e i file di codice non sorgente, come descritto di seguito.

In questa struttura di cartelle vengono creati un numero ridotto di file di codice di esempio.

Nome cartella Percorso consigliato per questi tipi di file
<pipeline_root_folder> Cartella radice che contiene tutte le cartelle e i file per la pipeline.
transformations File di codice sorgente, ad esempio file di codice Python o SQL con definizioni di tabella.
explorations File di codice non sorgente, ad esempio notebook, query e file di codice usati per l'analisi esplorativa dei dati.
utilities File di codice non sorgente con moduli Python che possono essere importati da altri file di codice. Se si sceglie SQL come linguaggio per il codice di esempio, questa cartella non viene creata.

È possibile rinominare i nomi delle cartelle o modificare la struttura in base al flusso di lavoro. Per aggiungere una nuova cartella del codice sorgente, seguire questa procedura:

  1. Clicca su Aggiungi nel browser delle risorse della pipeline.
  2. Fare clic su Crea cartella del codice sorgente della pipeline.
  3. Immettere un nome di cartella e fare clic su Crea.

File di codice sorgente

I file di codice sorgente fanno parte della definizione del codice sorgente della pipeline. Quando viene eseguita la pipeline, questi file vengono valutati. I file e le cartelle che fanno parte della definizione del codice sorgente hanno un'icona speciale con un'icona a forma di mini pipeline sovrapposta.

Per aggiungere un nuovo file di codice sorgente, seguire questa procedura:

  1. Clicca su Aggiungi nel browser delle risorse della pipeline.
  2. Fare clic su Trasformazione.
  3. Immettere un nome per il file e selezionare Python o SQL come linguaggio.
  4. Clicca su Crea.

È anche possibile fare clic sull'icona del menu Kebab per aggiungere un file di codice sorgente in qualsiasi cartella nel browser degli asset della pipeline.

Una transformations cartella per il codice sorgente viene creata per impostazione predefinita quando si crea una nuova pipeline. Questa cartella è il percorso consigliato per il codice sorgente della pipeline, ad esempio i file di codice Python o SQL con definizioni di tabella della pipeline.

File di codice non sorgente

I file di codice non sorgente vengono archiviati all'interno della cartella radice della pipeline, ma non fanno parte della definizione del codice sorgente della pipeline. Questi file non vengono valutati quando si esegue la pipeline. I file di codice non sorgente non possono essere file esterni.

È possibile usarlo per i file correlati al lavoro nella pipeline che si vuole archiviare insieme al codice sorgente. Per esempio:

  • Notebook utilizzati per esplorazioni ad hoc eseguite al di fuori del ciclo di vita di una pipeline su Spark in pipeline dichiarative non-Lakeflow.
  • Moduli Python che non devono essere valutati con il codice sorgente, a meno che non vengano importati in modo esplicito questi moduli all'interno dei file di codice sorgente.

Per aggiungere un nuovo file di codice non sorgente, seguire questa procedura:

  1. Clicca su Aggiungi nel browser delle risorse della pipeline.
  2. Fare clic su Esplorazione o Utilità.
  3. Immettere un nome per il file.
  4. Clicca su Crea.

È anche possibile fare clic sull'icona del menu Kebab. Per la cartella radice della pipeline o un file di codice non sorgente per aggiungere file di codice non sorgente alla cartella.

Quando si crea una nuova pipeline, per impostazione predefinita vengono create le cartelle seguenti per i file di codice non sorgente:

Nome cartella Description
explorations Questa cartella è il percorso consigliato per notebook, query, dashboard e altri file e quindi eseguirli nel calcolo dichiarativo di Spark non Lakeflow, come normalmente si farebbe al di fuori del ciclo di vita di esecuzione di una pipeline.
utilities Questa cartella è il percorso consigliato per i moduli Python che possono essere importati da altri file tramite importazioni dirette espresse come from <filename> import, purché la cartella padre si trova gerarchicamente nella cartella radice.

È anche possibile importare moduli Python all'esterno della cartella radice, ma in tal caso è necessario aggiungere il percorso della cartella a sys.path nel codice Python:

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

File esterni

La sezione File esterni del browser pipeline mostra i file di codice sorgente all'esterno della cartella radice.

Per spostare un file esterno nella cartella radice, ad esempio la transformations cartella, seguire questa procedura:

  1. Fare clic sull'icona del menu Kebab. per il file nel browser delle risorse e fare clic su Sposta.
  2. Scegliere la cartella in cui spostare il file e fare clic su Sposta.

File associati a più pipeline

Un badge viene visualizzato nell'intestazione del file se un file è associato a più di una pipeline. Include un conteggio delle pipeline associate e consente di passare agli altri.

Sezione Tutti i file

Oltre alla sezione Pipeline , è disponibile una sezione Tutti i file in cui è possibile aprire qualsiasi file nell'area di lavoro. A questo punto è possibile:

  • Apri i file fuori dalla cartella radice in una nuova scheda senza uscire dall'editor di pipeline di Lakeflow.
  • Passare ai file di codice sorgente di un'altra pipeline e aprirli. Il file verrà aperto nell'editor e verrà visualizzato un banner con l'opzione per passare il focus dell'editor a questa seconda pipeline.
  • Sposta i file nella cartella principale della pipeline.
  • Includere file all'esterno della cartella radice nella definizione del codice sorgente della pipeline.

Modificare i file di origine della pipeline

Quando si apre un file di origine della pipeline dal browser dell'area di lavoro o dal browser degli asset della pipeline, viene aperto in una scheda dell'editor di Lakeflow Pipelines Editor. L'apertura di più file apre schede separate, consentendo di modificare più file contemporaneamente.

Annotazioni

L'apertura di un file non associato a una pipeline dal browser dell'area di lavoro aprirà l'editor in un contesto diverso (l'editor dell'area di lavoro generale o, per i file SQL, l'editor SQL).

Quando si apre un file che non fa parte della pipeline dalla scheda Tutti i file del browser asset della pipeline, si apre in una nuova scheda nel contesto della pipeline.

Il codice sorgente della pipeline include più file. Per impostazione predefinita, i file di origine si trovano nella cartella trasformazioni nel browser degli asset della pipeline. I file di codice sorgente possono essere file Python (*.py) o SQL (*.sql). L'origine può includere una combinazione di file Python e SQL in una singola pipeline e il codice in un file può fare riferimento a una tabella o a una vista definita in un altro file.

È anche possibile includere i file markdown (*.md) nella cartella tranformations . I file Markdown possono essere usati per la documentazione o le note, ma vengono ignorati durante l'esecuzione di un aggiornamento della pipeline.

Le funzionalità seguenti sono specifiche dell'editor delle pipeline di Lakeflow:

Modificare il codice della pipeline

  1. Connetti : connettersi al calcolo serverless o classico per eseguire la pipeline. Tutti i file associati alla pipeline usano la stessa connessione di calcolo, quindi una volta connessi, non è necessario connettersi per altri file nella stessa pipeline. Per altre informazioni sulle opzioni di calcolo, vedere Opzioni di configurazione del calcolo.

    Per i file non della pipeline, ad esempio un notebook esplorativo, l'opzione di connessione è disponibile, ma si applica solo a tale singolo file.

  2. Esegui file : eseguire il codice per aggiornare le tabelle definite in questo file di origine. La sezione successiva descrive diversi modi per eseguire il codice della pipeline.

  3. Modifica : usare l'Assistente Databricks per modificare o aggiungere codice nel file.

  4. Correzione rapida : quando si verifica un errore nel codice, usare Assistente per correggere l'errore.

Il pannello inferiore si regola anche in base alla scheda corrente. La possibilità di visualizzare le informazioni sulla pipeline nel pannello inferiore è sempre attiva. I file non associati alla pipeline, ad esempio i file dell'editor SQL, mostrano anche l'output nel pannello inferiore in una scheda separata. L'immagine seguente mostra un selettore di tabulazioni verticale per passare dal pannello inferiore tra la visualizzazione delle informazioni sulla pipeline o le informazioni per il notebook selezionato.

Selettore di tabulazione verticale per notebook esplorativo

Eseguire il codice della pipeline

Sono disponibili quattro opzioni per eseguire il codice della pipeline:

  1. Eseguire tutti i file di codice sorgente nella pipeline

    Fare clic su Esegui pipeline o Esegui pipeline con l'aggiornamento completo della tabella per eseguire tutte le definizioni di tabella in tutti i file definiti come codice sorgente della pipeline. Per informazioni dettagliate sui tipi di aggiornamento, vedere Semantica di aggiornamento della pipeline.

    Eseguire la pipeline

    È anche possibile fare clic su Dry run (Esegui asciutta ) per convalidare la pipeline senza aggiornare i dati.

  2. Eseguire il codice in un singolo file

    Fare clic su Esegui file o Esegui file con l'aggiornamento completo della tabella per eseguire tutte le definizioni di tabella nel file corrente. Gli altri file nella pipeline non vengono valutati.

    Eseguire il file

    Questa opzione è utile per il debug durante la modifica rapida e l'iterazione in un file. Esistono effetti collaterali quando si esegue solo il codice in un singolo file.

    • Quando altri file non vengono valutati, gli errori in tali file non vengono trovati.
    • Le tabelle materializzate in altri file usano la materializzazione più recente della tabella, anche se sono presenti dati di origine più recenti.
    • È possibile che si verifichino errori se non è ancora stata materializzata una tabella a cui si fa riferimento.
    • Il DAG potrebbe non essere corretto o non contiguo per le tabelle in altri file che non sono stati materializzati. Azure Databricks esegue un'operazione ottimale per mantenere corretto il grafico, ma non valuta altri file a tale scopo.

    Al termine del debug e della modifica di un file, Databricks consiglia di eseguire tutti i file di codice sorgente nella pipeline per verificare che la pipeline funzioni end-to-end prima di inserire la pipeline nell'ambiente di produzione.

  3. Eseguire il codice per una singola tabella

    Accanto alla definizione di una tabella nel file del codice sorgente, fare clic sull'icona Esegui tabellaEsegui tabella e quindi scegliere Aggiorna tabella o Tabella di aggiornamento completo nell'elenco a discesa. L'esecuzione del codice per una singola tabella ha effetti collaterali simili all'esecuzione del codice in un singolo file.

    Eseguire la tabella

    Annotazioni

    L'esecuzione del codice per una singola tabella è disponibile per le tabelle di streaming e le viste materializzate. I sink e le viste non sono supportati.

  4. Eseguire il codice per un set di tabelle

    È possibile selezionare tabelle dal DAG per creare un elenco di tabelle da eseguire. Passare il puntatore del mouse sulla tabella nel DAG, fare clic sull'icona del menu Kebab e scegliere Seleziona tabella per l'aggiornamento. Dopo aver scelto le tabelle da aggiornare, scegliere l'opzione Esegui o Esegui con aggiornamento completo nella parte inferiore del DAG.

    Esegui le tabelle selezionate

Grafico della pipeline, grafico aciclico diretto (DAG)

Dopo aver eseguito o convalidato tutti i file di codice sorgente nella pipeline, viene visualizzato un grafo aciclico diretto (DAG), denominato grafico della pipeline. Il grafico mostra il diagramma delle dipendenze della tabella. Ogni nodo, lungo il ciclo di vita della pipeline, presenta stati differenti come convalidato, in esecuzione o errore.

Grafico aciclico diretto (DAG)

È possibile attivare e disattivare il grafico facendo clic sull'icona del grafico nel pannello a destra. È anche possibile ingrandire il grafico. Sono disponibili opzioni aggiuntive in basso a destra, incluse le opzioni di zoom e l'icona Dispositivi di scorrimento.Altre opzioni per visualizzare il grafico in un layout verticale o orizzontale.

Passando il puntatore del mouse su un nodo viene visualizzata una barra degli strumenti con opzioni, incluso l'aggiornamento della query. Facendo clic con il pulsante destro del mouse su un nodo sono disponibili le stesse opzioni, in un menu di scelta rapida.

Facendo clic su un nodo viene visualizzata l'anteprima dei dati e la definizione della tabella. Quando si modifica un file, le tabelle definite in tale file vengono evidenziate nel grafico.

Anteprime dei dati

La sezione anteprima dei dati mostra i dati di esempio per una tabella selezionata.

Quando si fa clic su un nodo nel grafico aciclico diretto (DAG), viene visualizzata un'anteprima dei dati della tabella.

Se non è stata selezionata alcuna tabella, passare alla sezione Tabelle e fare clic su Visualizza anteprima datiIcona Visualizza Anteprima Dati LDP. Se è stata scelta una tabella, fare clic su Tutte le tabelle per tornare a tutte le tabelle.

Quando si visualizzano in anteprima i dati della tabella, è possibile filtrare o ordinare i dati sul posto. Se si vuole eseguire un'analisi più complessa, è possibile usare o creare un notebook nella cartella Explorations (presupponendo che la struttura di cartelle predefinita sia stata mantenuta). Per impostazione predefinita, il codice sorgente in questa cartella non viene eseguito durante un aggiornamento della pipeline, quindi è possibile creare query senza influire sull'output della pipeline.

Informazioni dettagliate sull'esecuzione

È possibile visualizzare le informazioni dettagliate sull'esecuzione della tabella sull'aggiornamento della pipeline più recente nei pannelli nella parte inferiore dell'editor.

Panel Description
Tables Elenca tutte le tabelle con i relativi stati e metriche. Se si seleziona una tabella, vengono visualizzate le metriche e le prestazioni per tale tabella e una scheda per l'anteprima dei dati.
Performance Cronologia delle query e profili per tutti i flussi in questa pipeline. È possibile accedere alle metriche di esecuzione e ai piani di query dettagliati durante e dopo l'esecuzione. Per altre informazioni, vedere Accedere alla cronologia delle query per le pipeline .
Pannello Problemi Fare clic sul pannello per una visualizzazione semplificata degli errori e degli avvisi per la pipeline. È possibile fare clic su una voce per visualizzare altri dettagli e quindi passare alla posizione nel codice in cui si è verificato l'errore. Se l'errore si trova in un file diverso da quello attualmente visualizzato, verrà reindirizzato al file in cui si trova l'errore.
Fare clic su Visualizza dettagli per visualizzare la voce corrispondente del registro eventi per informazioni dettagliate complete. Fare clic su Visualizza log per visualizzare il registro eventi completo.
Gli indicatori di errore associato al codice vengono visualizzati per gli errori associati a una parte specifica del codice. Per ottenere altri dettagli, fare clic sull'icona di errore o passare il puntatore del mouse sulla linea rossa. Viene visualizzato un popup con altre informazioni. È quindi possibile fare clic su Correzione rapida per visualizzare un set di azioni per risolvere l'errore.
Registro eventi Tutti gli eventi attivati durante l'ultima esecuzione della pipeline. Fare clic su Visualizza log o su qualsiasi voce nella barra dei problemi.

Configurazione della pipeline

Puoi configurare la tua pipeline utilizzando l'editor della pipeline. È possibile apportare modifiche alle impostazioni, alla pianificazione o alle autorizzazioni della pipeline.

È possibile accedervi da un pulsante nell'intestazione dell'editor o dalle icone nel browser asset (barra laterale sinistra).

  • Impostazioni (o scegliere Icona a forma di ingranaggio nel browser asset):

    È possibile modificare le impostazioni per la pipeline dal pannello delle impostazioni, tra cui informazioni generali, cartella radice e configurazione del codice sorgente, configurazione di calcolo, notifiche, impostazioni avanzate e altro ancora.

  • Pianificazione (o scegliere Icona orologio calendario. nel browser asset):

    È possibile creare una o più pianificazioni per la pipeline dalla finestra di dialogo pianificazione. Ad esempio, se si vuole eseguirlo ogni giorno, è possibile impostarlo qui. Crea un'attività per eseguire la pipeline secondo la pianificazione che scegli. È possibile aggiungere una nuova pianificazione o rimuovere una pianificazione esistente dalla finestra di dialogo pianificazione.

  • Condividi (o, dal menu Kebab nel browser asset, scegliere l'icona Condividi):

    È possibile gestire le autorizzazioni per la pipeline per utenti e gruppi dalla finestra di dialogo delle autorizzazioni della pipeline.

Registro eventi

È possibile pubblicare il registro eventi per una pipeline in Unity Catalog. Per impostazione predefinita, il registro eventi per la pipeline viene visualizzato nell'interfaccia utente e accessibile per l'esecuzione di query dal proprietario.

  1. Aprire Impostazioni.
  2. Fare clic sull'icona con la freccia a destra Chevron accanto a Impostazioni avanzate.
  3. Fare clic su Modifica impostazioni avanzate.
  4. In Registri eventi fare clic su Pubblica nel catalogo.
  5. Specificare un nome, un catalogo e uno schema per il registro eventi.
  6. Fare clic su Salva.

Gli eventi della pipeline vengono pubblicati nella tabella che hai specificato.

Per altre informazioni sull'uso del log eventi della pipeline, vedere Eseguire una query nel registro eventi.

Ambiente della pipeline

È possibile creare un ambiente per il codice sorgente aggiungendo dipendenze in Impostazioni.

  1. Aprire Impostazioni.
  2. In Ambiente fare clic su Modifica ambiente.
  3. Selezionare l'icona Plus.Aggiungere una dipendenza per aggiungere una dipendenza, come se la stessi aggiungendo a un file requirements.txt. Per altre informazioni sulle dipendenze, vedere Aggiungere dipendenze al notebook.

Databricks consiglia di fissare la versione con ==. Vedere Pacchetto PyPI.

L'ambiente si applica a tutti i file di codice sorgente nella pipeline.

Notifiche

È possibile aggiungere notifiche usando le impostazioni della pipeline.

  1. Aprire Impostazioni.
  2. Nella sezione Notifiche fare clic su Aggiungi notifica.
  3. Aggiungere uno o più indirizzi di posta elettronica e gli eventi da inviare.
  4. Fare clic su Aggiungi notifica.

Annotazioni

Creare risposte personalizzate agli eventi, comprese le notifiche o la gestione personalizzata, utilizzando gli event hooks in Python.

Pipeline di monitoraggio

Azure Databricks offre anche funzionalità per monitorare le pipeline in esecuzione. L'editor mostra i risultati e le informazioni dettagliate sull'esecuzione più recente. È ottimizzato per consentire iterazioni efficienti durante lo sviluppo interattivo della pipeline.

La pagina di monitoraggio della pipeline consente di visualizzare le esecuzioni storiche, utile quando una pipeline è in esecuzione in base a una pianificazione usando un Job.

Annotazioni

È disponibile un'esperienza di monitoraggio predefinita e un'esperienza di monitoraggio dell'anteprima aggiornata. La sezione seguente descrive come abilitare o disabilitare l'esperienza di monitoraggio dell'anteprima. Per informazioni su entrambe le esperienze, vedere Monitorare le pipeline nell'interfaccia utente.

L'esperienza di monitoraggio è disponibile dal pulsante Jobs & Pipelines sul lato sinistro dell'area di lavoro. È anche possibile passare direttamente alla pagina di monitoraggio dall'editor facendo clic sui risultati dell'esecuzione nel browser degli asset della pipeline.

Collegamento alla pagina di monitoraggio dall'editor

Per altre informazioni sulla pagina di monitoraggio, vedere Monitorare le pipeline nell'interfaccia utente. L'interfaccia utente di monitoraggio include la possibilità di tornare all'editor delle pipeline di Lakeflow selezionando Modifica pipeline dall'intestazione dell'interfaccia utente.

Abilitare l'editor delle pipeline di Lakeflow e il monitoraggio aggiornato

L'anteprima dell'editor di Pipeline di Lakeflow è abilitata per impostazione predefinita. È possibile disabilitarla o riabilitarla con le istruzioni seguenti. Quando l'anteprima dell'editor di Lakeflow Pipelines è abilitata, è anche possibile abilitare l'esperienza di monitoraggio aggiornata (anteprima).

L'anteprima deve essere abilitata impostando l'opzione Lakeflow Pipelines Editor per il workspace. Per altre informazioni su come modificare le opzioni, vedere Gestire le anteprime di Azure Databricks .

Dopo aver abilitato l'anteprima, è possibile abilitare l'editor di Pipelines Lakeflow in diversi modi:

  • Quando si crea una nuova pipeline ETL, abilitare l'editor nelle Pipeline dichiarative Lakeflow Spark con l'opzione Editor pipelines Lakeflow.

    Attivazione/disattivazione dell'editor di Pipeline di Lakeflow

    La pagina delle impostazioni avanzate per la pipeline viene usata la prima volta che si abilita l'editor. La finestra di creazione della pipeline semplificata viene usata alla successiva creazione di una nuova pipeline.

  • Per una pipeline esistente, apri un notebook utilizzato in una pipeline e abilita l'opzione Editor delle pipeline Lakeflow nella barra degli strumenti. È anche possibile passare alla pagina di monitoraggio della pipeline e fare clic su Impostazioni per abilitare l'Editor pipeline di Lakeflow.

  • È possibile abilitare l'Editor pipeline di Lakeflow dalle impostazioni utente:

    1. Fare clic sul badge dell'utente nell'area in alto a destra dell'area di lavoro e quindi fare clic su Impostazioni e sviluppatore.
    2. Abilitare l'editor di pipeline di Lakeflow.

Dopo aver abilitato l'interruttore a levetta Lakeflow Pipelines Editor, tutte le pipeline ETL usano per impostazione predefinita il Lakeflow Pipelines Editor. È possibile attivare e disattivare l'editor di Lakeflow Pipelines dall'editor.

Annotazioni

Se si disabilita il nuovo "editor di pipeline," è utile lasciare un feedback descrivendo il motivo per cui è stato disattivato. È disponibile un pulsante Invia commenti sull'interruttore per qualunque feedback sul nuovo editor.

Abilitare la nuova pagina di monitoraggio della pipeline

Importante

Questa funzionalità è in Anteprima Pubblica.

Come parte dell'anteprima dell'editor di Pipeline di Lakeflow, è possibile abilitare una nuova pagina di monitoraggio per una pipeline. Per abilitare la pagina di monitoraggio della pipeline, è necessario abilitare l'anteprima dell'editor di Pipeline di Lakeflow. Quando l'anteprima dell'editor è abilitata, la nuova pagina di monitoraggio è abilitata anche per impostazione predefinita.

  1. Fare clic su Processi e pipeline.

  2. Fare clic sul nome di qualsiasi pipeline per visualizzare i dettagli per la pipeline.

  3. Nella parte superiore della pagina abilitare l'interfaccia utente di monitoraggio aggiornata con l'interruttore Nuova pagina della pipeline .

    Attivazione/disattivazione della nuova interfaccia utente della pagina della pipeline

Limitazioni e problemi noti

Consultare le seguenti limitazioni e problemi noti per l'editor di pipeline ETL nelle Lakeflow Spark Pipelines dichiarative:

  1. La barra laterale del explorations browser dell'area di lavoro non si concentra sulla pipeline se si inizia aprendo un file nella cartella o in un notebook, poiché questi file o notebook non fanno parte della definizione del codice sorgente della pipeline.

    Per accedere alla modalità messa a fuoco della pipeline nel browser dell'area di lavoro, aprire un file associato alla pipeline.

  2. Le anteprime dei dati non sono supportate per le visualizzazioni regolari.

  3. I moduli Python non vengono trovati all'interno di una funzione definita dall'utente, anche se si trovano nella cartella radice o si trovano in sys.path. È possibile accedere a questi moduli aggiungendo il percorso all'oggetto sys.path dall'interno della funzione definita dall'utente (UDF), per esempio: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install non è supportato dai file (il tipo di asset predefinito con il nuovo editor). È possibile aggiungere dipendenze nelle impostazioni. Vedere Ambiente pipeline.

    In alternativa, è possibile continuare a usare %pip install da un notebook associato a una pipeline, nella definizione del codice sorgente.

Domande frequenti

  1. Perché usare file e non notebook per il codice sorgente?

    L'esecuzione basata su cella dei notebook non è compatibile con le pipeline. Le funzionalità standard dei notebook sono disabilitate o modificate durante l'uso delle pipeline, che causano confusione per gli utenti che hanno familiarità con il comportamento dei notebook.

    Nell'editor di Lakeflow Pipelines l'editor di file viene usato come base per un editor di prima classe per le pipeline. Le funzionalità sono destinate in modo esplicito alle pipeline, come Run tableRun Table Icon, anziché sovraccaricare funzionalità familiari con un comportamento diverso.

  2. È comunque possibile usare i notebook come codice sorgente?

    Sì, è possibile. Tuttavia, alcune funzionalità, ad esempio Esegui tabellaEsegui icona tabella o Esegui file, non sono presenti.

    Se si dispone di una pipeline esistente usando notebook, funziona comunque nel nuovo editor. Databricks consiglia tuttavia di passare ai file per le nuove pipeline.

  3. Come è possibile aggiungere codice esistente a una pipeline appena creata?

    È possibile aggiungere file di codice sorgente esistenti a una nuova pipeline. Per aggiungere una cartella con i file esistenti, seguire questa procedura:

    1. Fare clic su Impostazioni.
    2. Nella Codice sorgente clicca su Configura i percorsi.
    3. Fare clic su Aggiungi percorso e scegliere la cartella per i file esistenti.
    4. Fare clic su Salva.

    È anche possibile aggiungere singoli file:

    1. Fare clic su Tutti i file nel browser degli asset della pipeline.
    2. Vai al tuo file, fai clic sull'icona del menu Kebab e fai clic su Includi nella pipeline.

    Prendere in considerazione lo spostamento di questi file nella cartella radice della pipeline. Se vengono lasciati all'esterno della cartella radice della pipeline, vengono visualizzati nella sezione File esterni .

  4. È possibile gestire il codice sorgente della pipeline in Git?

    È possibile gestire l'origine della pipeline in Git scegliendo una cartella Git quando si crea inizialmente la pipeline.

    Annotazioni

    La gestione dell'origine in una cartella Git aggiunge il controllo della versione per il codice sorgente. Tuttavia, per controllare la configurazione, Databricks consiglia di usare i bundle di asset di Databricks per definire la configurazione della pipeline nei file di configurazione del bundle che possono essere archiviati in Git (o in un altro sistema di controllo della versione). Per altre informazioni, vedere Che cosa sono i bundle di asset di Databricks?.

    Se inizialmente la pipeline non è stata creata in una cartella Git, è possibile spostare l'origine in una cartella Git. Databricks consiglia di usare l'azione dell'editor per spostare l'intera cartella radice in una cartella Git. In questo modo tutte le impostazioni vengono aggiornate di conseguenza. Vedere Cartella radice.

    Per spostare la cartella radice in una cartella di Git nella sezione delle risorse della pipeline:

    1. Fare clic sull'icona del menu Kebab. Per la cartella radice.
    2. Fare clic su Sposta cartella radice.
    3. Scegliere un nuovo percorso per la cartella radice e fare clic su Sposta.

    Per altre informazioni, vedere la sezione Cartella radice .

    Dopo lo spostamento, viene visualizzata l'icona Git familiare accanto al nome della cartella radice.

    Importante

    Per spostare la cartella radice della pipeline, usare il browser degli asset della pipeline e i passaggi precedenti. Spostandolo in altro modo, le configurazioni della pipeline vengono interrotte ed è necessario configurare manualmente il percorso della cartella corretto in Impostazioni.

  5. È possibile avere più pipeline nella stessa cartella radice?

    È possibile, ma Databricks consiglia di avere una sola pipeline per ogni cartella radice.

  6. Quando dovrei correre a secco?

    Fare clic su prova simulata per controllare il codice senza aggiornare le tabelle.

  7. Quando è consigliabile usare visualizzazioni temporanee e quando è necessario usare viste materializzate nel codice?

    Usare le visualizzazioni temporanee quando non si desidera materializzare i dati. Ad esempio, si tratta di un passaggio in una sequenza di passaggi per preparare i dati prima che sia pronto a materializzarsi usando una tabella di streaming o una vista materializzata registrata nel catalogo.