Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
Questo articolo descrive le funzionalità disponibili nell'interfaccia utente di Azure Databricks per visualizzare i processi a cui si ha accesso, visualizzare una cronologia delle esecuzioni per i processi e visualizzare i dettagli delle esecuzioni dei processi. Per configurare le notifiche per i processi, vedere Aggiungere notifiche in un processo.
Per informazioni sull'uso della CLI di Databricks per visualizzare ed eseguire i lavori, eseguire i comandi della CLI databricks jobs list -h, databricks jobs get -h e databricks jobs run-now -h. Per informazioni sull'uso dell'API Processi, vedere l'API Processi.
Se si ha accesso allo schema system.lakeflow, è anche possibile visualizzare ed eseguire query sui record delle esecuzioni dei lavori e dei task nell'account. Consultare Informazioni di riferimento sulla tabella di sistema processi. È anche possibile unire le tabelle di sistema dei processi con le tabelle di fatturazione per monitorare il costo dei processi nell'account. Consulta Monitor i costi dei processi e le prestazioni & con le tabelle di sistema.
Visualizzare processi e pipeline
Per visualizzare l'elenco dei processi a cui si ha accesso, fare clic Processi e pipeline nella barra laterale. La scheda Processi e pipeline nell'interfaccia utente di Processi Lakeflow elenca le informazioni su tutti i processi e le pipeline disponibili, ad esempio l'autore, il trigger (se presente) e il risultato delle ultime cinque esecuzioni.
Per modificare le colonne visualizzate nell'elenco, fare clic e selezionare o deselezionare le colonne.
Importante
L'elenco unificato di processi e pipeline è in anteprima pubblica. È possibile disabilitare la funzionalità e tornare all'esperienza predefinita disabilitando Processi e pipeline: gestione unificata, ricerca e filtro. Per altre informazioni, vedere Gestire le anteprime di Azure Databricks .
È possibile filtrare i processi nell'elenco Processi e pipeline , come illustrato nello screenshot seguente.
-
Ricerca di testo: la ricerca di parole chiave è supportata per i campi Nome e ID processo . Per cercare un tag creato con una chiave e un valore, è possibile eseguire ricerche in base alla chiave, al valore o sia alla chiave che al valore. Ad esempio, per un tag con la chiave
departmente il valorefinance, è possibile cercaredepartmentofinancetrovare i lavori corrispondenti. Per eseguire una ricerca in base alla chiave e al valore, immettere la chiave e il valore separati da due punti ( ad esempio,department:finance). - Tipo: selezionare solo processi, pipeline o tutti.
- Proprietario: selezionare solo i processi o le pipeline di cui si è proprietari.
- Preferiti: selezionare tutti i processi o le pipeline contrassegnati come preferiti.
- Tag: usare i tag. Per eseguire ricerche in base al tag, è possibile usare il menu a discesa tag per filtrare fino a cinque tag contemporaneamente o usare direttamente la ricerca di parole chiave.
-
Esegui come: filtra per un massimo di due
run asvalori.
Per avviare un lavoro o una pipeline, fare clic sul pulsante . Per arrestare un flusso di lavoro, fare clic sul pulsante
. Per accedere ad altre azioni, fare clic sull'icona del menu Kebab. Ad esempio, è possibile eliminare il flusso di lavoro o accedere alle impostazioni per una pipeline da questo menu.
Visualizza le esecuzioni per un singolo job
È possibile visualizzare un elenco delle esecuzioni attualmente in esecuzione e completate di recente per un processo a cui si ha accesso, incluse le esecuzioni avviate da strumenti di orchestrazione esterni, ad esempio Apache Airflow o Azure Data Factory. Per visualizzare l'elenco delle esecuzioni dei lavori recenti:
Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Processi e pipeline.
Opzionalmente, selezionare i filtri Attività e Di mia proprietà.
Fare clic sul Nome del collegamento del proprio lavoro.
La scheda Esecuzioni è visibile con le visualizzazioni matrice ed elenco delle esecuzioni attive e completate.
La visualizzazione matrice mostra una cronologia delle esecuzioni per il lavoro, inclusa ogni task del lavoro.
Nella riga Durata totale esecuzione della matrice viene visualizzata la durata totale dell'esecuzione e lo stato dell'esecuzione. Per visualizzare i dettagli dell'esecuzione, inclusi l'ora di inizio, la durata e lo stato, passare il puntatore sulla barra nella riga Durata totale esecuzione.
Ogni cella nella riga Tasks rappresenta una task e lo stato corrispondente della task. Per visualizzare i dettagli di ogni task, inclusi l'ora di inizio, la durata, il cluster e lo stato, passare il puntatore del mouse sulla cella per tale task.
Le barre di esecuzione del lavoro e di esecuzione delle task sono codificate a colori per indicare lo stato dell'esecuzione. Le esecuzioni riuscite sono verdi. Le esecuzioni non riuscite sono rosse, le esecuzioni ignorate sono rosa e le esecuzioni in attesa di ritentativo sono gialle. In sospeso, annullato o scaduto sono grigi. L'altezza della singola esecuzione del lavoro e delle barre di esecuzione delle task indica visivamente la durata dell'esecuzione.
Se è stato configurato un tempo di completamento previsto, la visualizzazione matrice visualizza un avviso quando la durata di un'esecuzione supera il tempo configurato.
Per impostazione predefinita, la visualizzazione elenco esecuzioni visualizza quanto segue:
- Ora di inizio per l'esecuzione.
- Identificatore dell'esecuzione.
- Se l'esecuzione è stata attivata da una pianificazione dei processi o da una richiesta API, oppure è stata avviata manualmente.
- Tempo trascorso per un lavoro attualmente in esecuzione o il tempo di esecuzione totale per un'esecuzione completata. Se la durata supera un tempo di completamento previsto configurato, viene visualizzato un avviso.
- Stato dell'esecuzione, Accodato, In attesa, Esecuzione, Ignorato, Riuscito, Non riuscito, Timeout, Annullamentoo Annullato.
- Codice di errore con cui è stata terminata l'esecuzione.
- Parametri di esecuzione.
Le esecuzioni attive attualmente visualizzano un pulsante di stop. Per arrestare tutti i processi attivi e in coda, selezionare Annulla processi o Annulla tutti i processi in coda dal menu a discesa.
Utilizzare l'icona del menu Kebab per azioni aggiuntive specifiche al contesto, come ad esempio eliminare le voci delle esecuzioni completate.
Per accedere alle azioni contestuali per l'esecuzione, fare clic Ad esempio, per arrestare un'esecuzione attiva o eliminare un'esecuzione completata.
Per modificare le colonne visualizzate nella visualizzazione elenco esecuzioni, cliccare su
e selezionare o deselezionare le colonne.
Per visualizzare i dettagli per un'esecuzione del job, cliccare sul link dell'esecuzione nella colonna Ora di inizio nella visualizzazione elenco delle esecuzioni. Per visualizzare i dettagli dell'esecuzione più recente del processo, fare clic su Vai all'ultima esecuzione riuscita.
Azure Databricks conserva uno storico delle esecuzioni dei lavori per un massimo di 60 giorni. Se è necessario mantenere le esecuzioni dei lavori, Databricks consiglia di esportare i risultati prima della loro scadenza. Per altre informazioni, vedere Esportazione dei risultati di esecuzione del lavoro.
Visualizzare i dettagli di esecuzione del lavoro
La pagina dei dettagli di esecuzione del lavoro contiene l'output del lavoro e i collegamenti ai log, incluse le informazioni sull'esito positivo o negativo di ogni task nell'esecuzione del lavoro. È possibile accedere ai dettagli dell'esecuzione del lavoro dalla scheda Esecuzioni per il lavoro.
Per visualizzare i dettagli dell'esecuzione del lavoro dalla scheda Esecuzioni, cliccare sul collegamento per l'esecuzione nella colonna Ora di inizio nella visualizzazione dell'elenco esecuzioni. Per tornare alla scheda Esecuzioni per il lavoro, cliccare sul valore ID lavoro.
I lavori con più attività hanno anche un grafico, una sequenza temporale e una visualizzazione elenco.
Vista grafico
Fare clic su un nodo attività nel grafico per visualizzare i dettagli dell'esecuzione dell'attività, tra cui:
- Dettagli delle attività, tra cui l'esecuzione come, il modo in cui il processo è stato avviato, l'ora di inizio, l'ora di fine, la durata e lo stato.
- Codice sorgente.
- Cluster che ha eseguito l'attività e collegamenti alla cronologia delle query e ai log.
- Metriche per l'attività.
Visualizzazione sequenza temporale
I processi che contengono più attività hanno una vista cronologica per identificare le attività che richiedono molto tempo per il completamento, comprendere le dipendenze e le sovrapposizioni per supportare il debug e l'ottimizzazione di questi processi.
Visualizzazione elenco
Per impostazione predefinita, la visualizzazione in elenco mostra lo stato, il nome, il tipo, la risorsa, la durata e le dipendenze. È possibile aggiungere e rimuovere colonne in questa visualizzazione.
È possibile cercare un'attività in base al nome, filtrare in base allo stato dell'attività o al tipo di attività e ordinare le attività in base allo stato, al nome o alla durata.
Cliccare sul valore ID del lavoro per tornare alla scheda Esecuzioni.
In che modo Azure Databricks determina lo stato di esecuzione del lavoro?
Azure Databricks determina se un'esecuzione del processo è stata eseguita correttamente in base al risultato delle attività foglia del processo. Un'attività foglia è un'attività che non ha dipendenze a valle. Un'esecuzione di un processo di lavoro può avere uno dei tre risultati seguenti:
- Operazione completata: tutte le task hanno avuto esito positivo.
- Operazione riuscita con errori: alcune attività non sono andate a buon fine, ma tutte le attività foglia hanno avuto esito positivo.
- Operazione non riuscita: una o più attività foglia non sono riuscite.
- Ignorato: l'esecuzione del job è stata saltata. Ad esempio, un'attività potrebbe essere saltata perché è stato superato il numero massimo di esecuzioni simultanee consentite per il job o per lo spazio di lavoro.
- Timeout: il processo ha richiesto troppo tempo e non è stato completato nei tempi previsti.
- Annullata: l'esecuzione del processo è stata annullata( ad esempio, un utente ha annullato manualmente l'esecuzione in corso).
Visualizzare le metriche per le attività di streaming
Importante
L'osservabilità dello streaming per le attività Lakeflow è disponibile in anteprima pubblica.
Quando si visualizzano i dettagli dell'esecuzione del job, è possibile ottenere dati sui carichi di lavoro dello streaming con metriche di osservabilità dello streaming nell'interfaccia utente dei job. Queste metriche includono i secondi di backlog, i byte di backlog, i record di backlog e i file di backlog per le origini supportate da Spark Structured Streaming, tra cui Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub e tabelle Delta. Le metriche vengono visualizzate come grafici nel riquadro a destra quando si visualizzano i dettagli dell'esecuzione di un'attività. Le metriche visualizzate in ogni grafico sono valori massimi aggregati per minuto e possono includere fino alle 48 ore precedenti.
Ogni origine di streaming supporta solo metriche specifiche. Le metriche non supportate da un'origine di streaming non sono disponibili per la visualizzazione nell'interfaccia utente. La tabella seguente illustra le metriche disponibili per le origini di streaming supportate:
| fonte | byte backlog | registrazioni arretrate | arretrato secondi | file backlog |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesi | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| Caricatore automatico | ✓ | ✓ | ||
| Google Pub/Sub | ✓ | ✓ |
È anche possibile specificare le soglie per ogni metrica di streaming e configurare le notifiche se un flusso supera una soglia durante l'esecuzione di un'attività. Vedere Configurare le notifiche per i processi lenti.
Per visualizzare le metriche di streaming per un'attività di esecuzione che trasmette i dati da una delle origini di Structured Streaming supportate:
- Nella pagina dettagli di esecuzione del processo, fare clic sull'attività per cui si desidera visualizzare le metriche.
- Fare clic sulla scheda Metriche nel riquadro Esecuzione attività.
- Per aprire il grafico per una metrica, fare clic su
Right Caret accanto al nome della metrica. - Per visualizzare le metriche per un flusso specifico, immettere l'ID del flusso nella casella di testo Filtra per stream_id. È possibile trovare l'ID del flusso nell'output per l'esecuzione del job.
- Per modificare il periodo temporale dei grafici delle metriche, utilizzare il menu a discesa del tempo.
- Per scorrere i flussi se l'esecuzione contiene più di dieci flussi, fare clic su Avanti o Precedente.
Limitazioni dell'osservabilità dello streaming
- Le metriche vengono aggiornate ogni minuto, a meno che un processo non abbia più di quattro flussi. Se un'esecuzione ha più di quattro flussi, le metriche vengono aggiornate ogni cinque minuti.
- Le metriche vengono raccolte solo per i primi cinquanta stream in ogni esecuzione.
- Le metriche vengono raccolte a intervalli di un secondo. Le metriche potrebbero non essere visibili se l'impostazione
triggerIntervalè inferiore a un secondo. - La maggior parte delle fonti di dati raccoglie le metriche di streaming per impostazione predefinita. Tuttavia, per altri utenti, è necessario abilitare questa funzionalità. Se l'origine dati non raccoglie le metriche di streaming, imposta il
spark.sql.streaming.metricsEnabledflag suTrue.
Visualizzare la cronologia di esecuzione della task
Per visualizzare la cronologia di esecuzione di una task, incluse le esecuzioni riuscite e non riuscite:
- Fare clic su un'attività nella pagina Dettagli esecuzione lavoro. Viene visualizzata la pagina dei dettagli dell'esecuzione del task.
- Nel menu a discesa della cronologia delle esecuzioni, selezionare l'esecuzione del task.
Visualizza la cronologia delle esecuzioni per un'attività For each
L'accesso alla cronologia di esecuzione di un'attività For each è identico a quello di un'attività Lakeflow Jobs standard. È possibile cliccare sul nodo task For each nella pagina Dettagli esecuzione lavoro o nella cella corrispondente nella visualizzazione matrice. Tuttavia, a differenza di un compito standard, i dettagli di esecuzione per un compito For each vengono presentati come tabella delle iterazioni del compito nidificato.
Per visualizzare solo le iterazioni non riuscite, cliccare su Solo iterazioni non riuscite.
Per visualizzare l'output di un'iterazione, cliccare sui valori Ora di inizio o Ora di fine dell'iterazione.
Visualizzare le esecuzioni recenti delle attività in tutte le attività
Importante
Questa funzionalità è in Anteprima Pubblica.
È possibile visualizzare un elenco delle esecuzioni in esecuzione e completate di recente per tutti i lavori di un'area di lavoro a cui si ha accesso, incluse le esecuzioni avviate da strumenti di orchestrazione esterni, ad esempio Apache Airflow o Azure Data Factory. Per visualizzare l'elenco delle recenti esecuzioni dei lavori:
- Fare clic
Processi e pipeline nella barra laterale.
- Fare clic sulla scheda Esecuzioni per visualizzare il grafico Conteggio esecuzioni completate e l'elenco di esecuzioni di processi e pipeline.
- (Opzionale) Fare clic su Lavori per filtrare solo i lavori.
Nota
Se l'anteprima dell'elenco esecuzioni unificate è disabilitata, la scheda viene invece denominata Esecuzioni dei processi e mostra solo un elenco delle esecuzioni dei processi.
L'elenco delle esecuzioni include opzioni di filtro nella parte superiore, un grafico delle esecuzioni completate di recente e i primi 5 errori e un elenco delle esecuzioni completate di recente.
Puoi filtrare per:
- Nome del processo o della pipeline.
- Tutti, lavori o pipeline.
- Tipo di pipeline (ETL, Inserimento, MV/ST o Sincronizzazione tabelle di database).
- Utente Esegui come.
- L'orario di avvio (nell'ambito delle ultime 48 ore).
- Lo stato di esecuzione.
- Codice di errore per le esecuzioni non riuscite.
I filtri si applicano al grafico, ai codici di errore e all'elenco di esecuzioni.
Grafico del conteggio delle esecuzioni completate
Il grafico Conteggio esecuzioni completate visualizza il numero di esecuzioni di lavoro completate nelle ultime 48 ore. Per impostazione predefinita, il grafico visualizza le esecuzioni dei job non riuscite, saltate e riuscite. È anche possibile filtrare il grafico per visualizzare stati di esecuzione specifici o limitare il grafico a un intervallo di tempo specifico. La scheda Esecuzioni include anche una tabella di esecuzioni di processi degli ultimi 67 giorni. Per impostazione predefinita, la tabella include dettagli sulle esecuzioni di lavori riuscite, non riuscite e ignorate.
Nota
Il grafico Conteggio esecuzioni completate viene visualizzato per gli amministratori per tutte le esecuzioni. Per gli utenti non amministratori, è necessario fare clic su Esegui come e selezionarmi.
I filtri nella parte superiore della scheda Esecuzioni si applicano al grafico.
Per limitare l'intervallo di tempo visualizzato nel grafico Conteggio esecuzioni completate , è possibile selezionare un intervallo di tempo nel filtro precedente. In alternativa, è possibile fare clic e trascinare il cursore nel grafico per selezionare l'intervallo di tempo. Il grafico e la tabella delle esecuzioni si aggiornano per visualizzare le esecuzioni solo dell'intervallo di tempo selezionato.
La tabella Primi 5 tipi di errore visualizza un elenco con i tipi di errore più frequenti nell'intervallo di tempo selezionato, consentendo di visualizzare rapidamente le cause più comuni dei problemi di lavoro nell'area di lavoro.
Elenco esecuzioni di job
La scheda Esecuzioni include anche una tabella delle esecuzioni degli ultimi sessanta giorni. Per impostazione predefinita, la tabella include dettagli sulle esecuzioni di lavori non riuscite, ignorate e riuscite.
I filtri in cima alla scheda Esecuzioni si applicano all'elenco.
Per impostazione predefinita, l'elenco delle esecuzioni nella tabella delle esecuzioni visualizza quanto segue:
- Ora di inizio per l'esecuzione.
- Il nome del lavoro associato all'esecuzione.
- Tipo (Job o Pipeline) dell'esecuzione.
- Nome utente con cui viene eseguito il lavoro.
- Come è stata attivata l'esecuzione (Innescata), tramite un programma di pianificazione, una richiesta API, o avviata manualmente.
- Tempo trascorso per un lavoro attualmente in esecuzione o il tempo di esecuzione totale per un'esecuzione completata. Se la durata supera un tempo di completamento previsto configurato, viene visualizzato un avviso.
- Stato dell'esecuzione: Accodato, Pendente, In esecuzione, Ignorato, Riuscito, Non riuscito, Tempo scaduto, Annullamentoo Annullato.
- Qualsiasi codice di errore con cui è stata terminata l'esecuzione.
- Qualsiasi parametro per l'esecuzione.
- Per arrestare un'attività in esecuzione, fare clic sul pulsante arresta. Per accedere alle azioni per il processo, fare clic
Ad esempio, per arrestare un'esecuzione attiva o eliminare un'esecuzione completata.
Per modificare le colonne visualizzate nell'elenco delle esecuzioni, fare clic e selezionare o deselezionare le colonne.
Per visualizzare i dettagli dell'esecuzione del lavoro, cliccare sul collegamento nella colonna Ora di inizio per l'esecuzione. Per visualizzare i dettagli del lavoro, cliccare sul nome del lavoro nella colonna Lavoro.
Visualizzare le informazioni sulla derivazione per un lavoro
Se Unity Catalog è abilitato nell'area di lavoro, è possibile visualizzare le informazioni sulla derivazione per qualsiasi tabella di Unity Catalog nel flusso di lavoro. Se sono disponibili informazioni sulla derivazione per il tuo flusso di lavoro, vedrai un collegamento con il conteggio delle tabelle upstream e downstream nel pannello Dettagli del lavoro per il tuo lavoro, nel pannello Dettagli dell'esecuzione del lavoro per l'esecuzione di un lavoro, o nel pannello Dettagli dell'esecuzione del task per l'esecuzione di un task. Cliccare sul collegamento per visualizzare l'elenco delle tabelle. Cliccare su una tabella per visualizzare informazioni dettagliate in Explorer catalogo.
Visualizzare ed eseguire un processo creato con i bundle di asset di Databricks
È possibile usare l'interfaccia utente dei job Lakeflow per visualizzare ed eseguire i job implementati dai Databricks Asset Bundles. Per impostazione predefinita, questi processi sono di sola lettura nell'interfaccia utente dei processi. Per modificare un processo distribuito da un bundle, modificare il file di configurazione del bundle e ridistribuire il processo. L'applicazione delle modifiche solo alla configurazione del bundle garantisce che i file di origine del bundle acquisiscano sempre la configurazione del processo corrente.
Tuttavia, se è necessario apportare modifiche immediate a un processo, è possibile disconnettere il processo dalla configurazione del bundle per abilitare la modifica delle impostazioni del processo nell'interfaccia utente. Per disconnettere il lavoro, fare clic su Disconnetti dalla sorgente. Nella finestra di dialogo Disconnetti dall'origine fare clic su Disconnetti per confermare.
Le modifiche apportate all'attività nell'interfaccia utente non vengono applicate alla configurazione del bundle. Per applicare le modifiche apportate nell'interfaccia utente al bundle, è necessario aggiornare manualmente la configurazione del bundle. Per riconnettere il processo alla configurazione del bundle, ridistribuire il processo usando il bundle.
Esportare i risultati di esecuzione del lavoro
È possibile esportare i risultati di esecuzione del notebook e i log di esecuzione dei lavori per tutti i tipi di lavoro.
Esportare i risultati di esecuzione del notebook
È possibile rendere persistenti le esecuzioni dei lavori esportandone i risultati. Per le esecuzioni dei lavori notebook, è possibile esportare un notebook reso che può essere successivamente importato nell'area di lavoro di Azure Databricks.
Per esportare i risultati di esecuzione del notebook per un lavoro con una singola attività:
- Nella pagina dei dettagli del lavoro cliccare sul collegamento Visualizza dettagli per l'esecuzione nella colonna Esegui della tabella Esecuzioni completate (ultimi 60 giorni).
- Cliccare su Esporta in HTML.
Per esportare i risultati di esecuzione del notebook per un lavoro con più task:
- Nella pagina dei dettagli del lavoro cliccare sul collegamento Visualizza dettagli per l'esecuzione nella colonna Esegui della tabella Esecuzioni completate (ultimi 60 giorni).
- Fare clic sulla task del notebook da esportare.
- Cliccare su Esporta in HTML.
Esportare i log di esecuzione del lavoro
È anche possibile esportare i log relativi all'esecuzione del lavoro. È possibile configurare le attività per recapitare automaticamente i log a DBFS mentre si configura il calcolo delle attività (vedere riferimento alla configurazione di calcolo) o tramite l'API delle attività. Vedere l'oggetto new_cluster.cluster_log_conf nel corpo della richiesta passato all'operazione Crea un nuovo job (POST /jobs/create) nell'API Jobs.