Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa sezione descrive l'uso di funzionalità predefinite di monitoraggio e osservabilità per le pipeline dichiarative di Lakeflow Spark nell'interfaccia utente di Azure Databricks. Queste funzionalità supportano attività come:
- Osservare l'avanzamento e lo stato degli aggiornamenti della pipeline. Vedere Dettagli della pipeline disponibili nella pagina di monitoraggio.
- Avvisi sugli eventi della pipeline, come il successo o l'insuccesso degli aggiornamenti della pipeline. Vedi Aggiungi le notifiche di posta elettronica agli eventi della pipeline.
- Visualizzazione di metriche per fonti di streaming come Apache Kafka e Auto Loader (Anteprima Pubblica). Visualizzare le metriche di streaming .
Aggiungere notifiche di posta elettronica per gli eventi della pipeline
È possibile configurare uno o più indirizzi di posta elettronica per ricevere notifiche quando si verifica quanto segue:
- Un aggiornamento della pipeline viene completato con successo.
- Un aggiornamento della pipeline non riesce, con un errore recuperabile o non recuperabile. Selezionare questa opzione per ricevere una notifica per tutti gli errori della pipeline.
- Un aggiornamento della pipeline fallisce con un errore non recuperabile (fatale). Selezionare questa opzione per ricevere una notifica solo quando si verifica un errore non riprovabile.
- Un singolo flusso di dati ha esito negativo.
Per configurare le notifiche tramite posta elettronica, modificare le impostazioni per una pipeline. Vedere Notifiche.
Annotazioni
Creare risposte personalizzate agli eventi, comprese le notifiche o la gestione personalizzata, utilizzando gli event hooks in Python.
Visualizzazione delle pipeline nell'interfaccia utente
Trovare la pipeline Opzione Processi e pipeline nella barra laterale dell'area di lavoro. Verrà aperta la pagina Processi e pipeline , in cui è possibile visualizzare informazioni su ogni processo e pipeline a cui si ha accesso. Fare clic sul nome di una pipeline per aprire la pagina di monitoraggio della pipeline. Per modificare il processo o la pipeline, fare clic
Scegliere Modifica.
Annotazioni
I job e i diversi tipi di pipeline hanno editor diversi. L'opzione Modifica aprirà l'editor corretto per l'oggetto selezionato.
Uso dell'elenco di processi e pipeline
Per visualizzare l'elenco delle pipeline a cui si ha accesso, fare clic Processi e pipeline nella barra laterale. La scheda Processi e pipeline elenca le informazioni su tutti i processi e le pipeline disponibili, ad esempio l'autore, il trigger (se presente) e il risultato delle ultime cinque esecuzioni.
Facendo clic sul nome di una pipeline o di un processo si passa alla pagina di monitoraggio per tale pipeline o processo. Per modificare la pipeline o il processo, fare clic quindi selezionare Modifica.
Per modificare le colonne visualizzate nell'elenco, fare clic e selezionare o deselezionare le colonne. Ad esempio, per aggiungere il
Pipeline Type come colonna, selezionare quella colonna da visualizzare.
È possibile filtrare i processi nell'elenco Processi e pipeline , come illustrato nello screenshot seguente.
-
Ricerca di testo: la ricerca di parole chiave è supportata per i campi Nome e ID . Per cercare un tag creato con una chiave e un valore, è possibile eseguire ricerche in base alla chiave, al valore o sia alla chiave che al valore. Ad esempio, per un tag con la chiave
departmente il valorefinance, è possibile cercaredepartmentofinancetrovare i lavori corrispondenti. Per eseguire una ricerca in base alla chiave e al valore, immettere la chiave e il valore separati da due punti ( ad esempio,department:finance). - Tipo: filtrare in base a Lavori, Pipeline o Tutti. Se si seleziona Pipeline, è possibile anche filtrare in base al tipo di pipeline, che include pipeline ETL e di caricamento.
- Proprietario: mostra solo i lavori di cui sei proprietario.
- Preferiti: mostra i lavori contrassegnati come preferiti.
- Tag: usare i tag. Per eseguire ricerche in base al tag, è possibile usare il menu a discesa tag per filtrare fino a cinque tag contemporaneamente o usare direttamente la ricerca di parole chiave.
-
Esegui come: filtra per un massimo di due
run asvalori.
Per avviare un processo o una pipeline, fare clic sull'icona "Riproduci". Per arrestare un processo o una pipeline, fare clic sul pulsante . Per accedere ad altre azioni, fare clic sull'icona del menu Kebab. Ad esempio, è possibile modificare o eliminare il processo o la pipeline o accedere alle impostazioni per una pipeline da tale menu.
Dettagli della pipeline disponibili nella pagina di monitoraggio
Annotazioni
Sono disponibili più anteprime che possono influire sugli elementi visualizzati durante il monitoraggio delle pipeline nell'interfaccia utente.
- L'editor di Lakeflow Pipelines trasforma l'esperienza per i dettagli delle pipeline. Se si è scelto di acconsentire esplicitamente all'anteprima, le informazioni vengono visualizzate in un'interfaccia utente diversa da quella descritta qui. Per informazioni dettagliate sull'interfaccia utente, vedere Quali modifiche sono nell'Editor di Pipeline Lakeflow?.
- L'anteprima dell'elenco esecuzioni unificate aggiunge le esecuzioni della pipeline all'elenco di esecuzione dei processi. Per informazioni dettagliate sulle modifiche con l'anteprima abilitata e su come abilitarla, vedere Quali modifiche sono nell'anteprima della Lista Esecuzioni Unificata?.
Facendo clic sul nome di una pipeline nella pagina Processi e pipeline viene visualizzata la pagina di monitoraggio per tale pipeline. Da qui è possibile avviare un'esecuzione della pipeline e visualizzare i dettagli dell'esecuzione precedente.
Il grafico della pipeline (detto anche DAG) viene visualizzato non appena un aggiornamento a una pipeline è stato avviato correttamente. Le frecce rappresentano le dipendenze tra set di dati nella pipeline. Per impostazione predefinita, la pagina di monitoraggio della pipeline mostra l'aggiornamento più recente per la tabella, ma è possibile selezionare gli aggiornamenti meno recenti da un menu a discesa.
I dettagli includono l'ID pipeline, il codice sorgente, il costo di calcolo, l'edizione del prodotto e il canale configurato per la pipeline.
Per visualizzare una visualizzazione tabulare dei set di dati, fare clic sulla scheda Elenco . La visualizzazione Elenco consente di visualizzare tutti i set di dati nella pipeline rappresentati come riga in una tabella ed è utile quando il grafico della pipeline è troppo grande per visualizzare nella visualizzazione Grafico . È possibile controllare i set di dati visualizzati nella tabella usando più filtri, ad esempio nome del set di dati, tipo e stato. Per tornare alla visualizzazione DAG, fare clic su Graph.
L'utente Esegui come utente è il proprietario della pipeline e gli aggiornamenti della pipeline vengono eseguiti con le autorizzazioni di questo utente. Per modificare l'utente run as, fare clic su Autorizzazioni e modificare il proprietario della pipeline.
Quali modifiche si trovano nell'editor delle pipeline di Lakeflow?
Se si è scelto di usare l'anteprima dell'editor di Lakeflow Pipelines e la nuova interfaccia utente di monitoraggio della pipeline, alcune informazioni si trovano in posizioni diverse nell'interfaccia utente. Per informazioni sull'editor di Lakeflow Pipelines e per optare per entrambe le anteprime, vedere Abilitare l'editor delle pipeline di Lakeflow e il monitoraggio aggiornato.
Importante
Questa funzionalità è in Anteprima Pubblica.
Quando si decide di partecipare a entrambe le anteprime, nella pagina di monitoraggio della pipeline vengono visualizzate le seguenti modifiche al monitoraggio:
Le schede Dettagli pipeline e Dettagli aggiornamento nel pannello di destra sono state unite con i dettagli della pipeline nella parte superiore, seguiti dai dettagli dell'aggiornamento.
Facendo clic su una tabella nel grafico non vengono visualizzati i dettagli della tabella nel pannello di destra. Il pannello di destra continua a visualizzare la pipeline e aggiornare i dettagli. Il pannello inferiore mostra invece le informazioni sulla tabella.
Le regole per l'esecuzione di una pipeline in modalità di sviluppo vengono leggermente aggiornate. Per informazioni sulla modalità di sviluppo, vedere Modalità di sviluppo.
- L'esecuzione di una pipeline tramite una pianificazione o un trigger segue l'impostazione della pipeline per determinare se usare la modalità di sviluppo. È possibile modificare l'impostazione predefinita per una pipeline nelle impostazioni della pipeline.
- L'esecuzione di una pipeline tramite l'interfaccia utente di monitoraggio userà la modalità definita nelle impostazioni della pipeline. È possibile scegliere se usare la modalità di sviluppo usando l'opzione Esegui con impostazioni diverse nell'elenco a discesa.
- Per impostazione predefinita, l'esecuzione di una pipeline dall'editor della pipeline sarà la modalità di sviluppo. È possibile scegliere di non usare la modalità di sviluppo usando l'opzione Esegui con impostazioni diverse nell'elenco a discesa.
Non esiste più un collegamento al codice sorgente nei dettagli della pipeline. Scegliere invece Modifica pipeline nella parte superiore. Per passare al codice per una tabella specifica, passare il puntatore del mouse sulla tabella nel DAG e fare clic
Passare al pulsante del codice .
Il registro eventi non viene più visualizzato per impostazione predefinita in ogni aggiornamento dalla pagina di monitoraggio della pipeline. Quando si verifica un errore durante l'elaborazione, gli errori vengono visualizzati nel pannello inferiore e viene visualizzato un pulsante Visualizza log per visualizzare il registro eventi per l'esecuzione. Il registro eventi è disponibile anche selezionando
Visualizzare il log eventi dai dettagli dell'esecuzione nel pannello di destra.
Per accedere al registro eventi durante l'esecuzione di un aggiornamento nel nuovo editor dei pipeline di Lakeflow, navigare al pannello Problemi e informazioni dettagliate nella parte inferiore dell'editor, fare clic su Visualizza i log o sul pulsante Apri nei log accanto a qualsiasi errore. Per ulteriori dettagli, consulta l'Editor pipeline di Lakeflow e le Impostazioni della pipeline per il registro eventi.
Le informazioni sullo schema di tabella sono disponibili scegliendo la tabella nella scheda Tabelle del pannello inferiore e quindi selezionando Colonne.
La cronologia delle query è disponibile scegliendo Prestazioni nel pannello inferiore.
I commenti di tabella non sono disponibili nella pagina dei dettagli della pipeline. Per visualizzare i commenti della tabella, visualizzare la tabella da Esplora cataloghi. Per passare direttamente alla tabella in Esplora cataloghi, passare il puntatore del mouse sulla tabella nel DAG, quindi fare clic
e quindi
Visualizzazione nel catalogo. È anche possibile accedere alle informazioni in Esplora cataloghi dall'elenco delle tabelle nel pannello inferiore facendo clic
Quali modifiche sono nell'anteprima dell'elenco delle esecuzioni unificate?
Se hai abilitata l'anteprima dell'elenco esecuzioni unificate, puoi visualizzare gli aggiornamenti dell'esecuzione della pipeline nella pagina Processi e pipeline.
Importante
L'elenco delle esecuzioni unificate è disponibile in anteprima pubblica.
Per abilitare Unified Runs List, un amministratore dell'area di lavoro deve iscriversi al programma di anteprima. Per informazioni dettagliate su come acconsentire esplicitamente a un'anteprima, vedere Gestire le anteprime a livello di account.
Per accedere all'elenco delle esecuzioni unificate, selezionare Esecuzioni dalla barra laterale dell'area di lavoro, o cliccare su
Job e pipeline, poi selezionare la scheda Esecuzioni.
La scheda mostra un elenco delle esecuzioni recenti negli ultimi 60 giorni. Viene visualizzato un grafico che mostra il successo e il fallimento delle esecuzioni nelle ultime 48 ore, nei seguenti casi:
- Sei filtrato su jobs oppure pipeline.
- Sei un amministratore, oppure applica un filtro per eseguire solo
Run as: Me - Le esecuzioni possono richiedere fino a un'ora per essere visualizzate nel grafico.
È possibile filtrare l'elenco e il grafico in base a:
- Nome del processo o della pipeline.
- Tutti, lavori o pipeline.
- Tipo di pipeline (ETL, Inserimento, MV/ST o Sincronizzazione tabelle di database).
- Utente Esegui come.
- L'orario di avvio (nell'ambito delle ultime 48 ore).
- Lo stato di esecuzione.
- Codice di errore per le esecuzioni non riuscite.
Oltre a quanto sopra, è possibile visualizzare le colonne seguenti nell'elenco:
- Ora di fine
- ID esecuzione
- Indica se l'esecuzione è stata avviata manualmente o in base a una pianificazione.
- Durata di esecuzione.
- Parametri di esecuzione.
Per modificare le colonne visualizzate nell'elenco delle esecuzioni, fare clic e selezionare o deselezionare le colonne.
Facendo clic sull'ora di inizio, sull'ora di fine o sul nome di un'esecuzione della pipeline, si passa alla pagina di monitoraggio per la pipeline.
Quando una pipeline è in esecuzione attivamente, è possibile arrestare l'esecuzione facendo clic In qualsiasi momento, è anche possibile fare clic
Sul pulsante del menu nella riga dell'esecuzione, e scegliere Modifica pipeline per visualizzare la pipeline nell'editor.
Come è possibile visualizzare i dettagli del set di dati?
Facendo clic su un set di dati nell'elenco del grafico o del set di dati della pipeline vengono visualizzati i dettagli sul set di dati. I dettagli includono lo schema del set di dati, le metriche sulla qualità dei dati e un collegamento al codice sorgente che definisce il set di dati.
Visualizzare la cronologia degli aggiornamenti
Per visualizzare la cronologia e lo stato degli aggiornamenti della pipeline, fare clic sul menu a discesa Cronologia aggiornamenti nella barra superiore.
Selezionare l'aggiornamento nel menu a discesa per visualizzare il grafico, i dettagli e gli eventi per un aggiornamento. Per tornare all'aggiornamento più recente, fare clic su Mostra l'aggiornamento più recente.
Visualizzare le metriche di streaming
Importante
L'osservabilità dello streaming per le pipeline è disponibile in anteprima pubblica.
È possibile visualizzare le metriche di streaming dalle origini dati supportate da Spark Structured Streaming, ad esempio Apache Kafka, Amazon Kinesis, Auto Loader e tabelle Delta, per ogni flusso di streaming nella pipeline. Le metriche vengono visualizzate come grafici nel riquadro destro dell'interfaccia utente della pipeline e includono secondi di arretrato, byte di arretrato, record di arretrato e file di arretrato. I grafici visualizzano il valore massimo aggregato per minuto e un tooltip mostra i valori massimi quando si passa il mouse sul grafico. I dati sono limitati alle ultime 48 ore dall'ora corrente.
Le tabelle nella pipeline con le metriche di streaming disponibili visualizzano l'icona
quando si visualizza il DAG della pipeline nella visualizzazione Grafico dell'interfaccia utente. Per visualizzare le metriche di streaming, fare clic
per visualizzare il grafico delle metriche di streaming nella scheda Flussi nel riquadro destro. È anche possibile applicare un filtro per visualizzare solo le tabelle con metriche di streaming facendo clic su List e quindi facendo clic su Has streaming metrics.You can also apply a filter to view only tables with streaming metrics by click List, then click Has streaming metrics.
Ogni origine di streaming supporta solo metriche specifiche. Le metriche non supportate da un'origine di streaming non sono disponibili per la visualizzazione nell'interfaccia utente. La tabella seguente illustra le metriche disponibili per le origini di streaming supportate:
| source | byte backlog | registrazioni arretrate | arretrato secondi | file backlog |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| Caricatore automatico | ✓ | ✓ | ||
| Google Pub/Sub | ✓ | ✓ |