Risoluzione dei problemi e riparazione degli errori dei processi

Si supponga di essere stati informati (ad esempio, tramite una notifica tramite posta elettronica, una soluzione di monitoraggio o nell'interfaccia utente dei processi di Azure Databricks) che un'attività non è riuscita in un'esecuzione del processo di Azure Databricks. I passaggi descritti in questo articolo forniscono indicazioni utili per identificare la causa dell'errore, i suggerimenti per risolvere i problemi riscontrati e come ripristinare le esecuzioni dei processi non riusciti.

Identificare la causa dell'errore

Per trovare l'attività non riuscita nell'interfaccia utente dei processi di Azure Databricks:

  1. Fare clic su Jobs IconProcessi nella barra laterale.

  2. Nella colonna Nome fare clic sul nome di un processo. La scheda Esecuzioni mostra le esecuzioni attive e le esecuzioni completate, incluse le esecuzioni non riuscite. La visualizzazione matrice nella scheda Esecuzioni mostra una cronologia delle esecuzioni per il processo, incluse le esecuzioni riuscite e non riuscite per ogni attività di processo. L'esecuzione di un'attività potrebbe non riuscire perché non è riuscita o è stata ignorata perché un'attività dipendente non è riuscita. Usando la visualizzazione matrice, è possibile identificare rapidamente gli errori delle attività per l'esecuzione del processo.

    Matrix view of job runs

  3. Passare il puntatore del mouse su un'attività non riuscita per visualizzare i metadati associati. Questi metadati includono le date di inizio e di fine, lo stato, i dettagli del cluster di durata e, in alcuni casi, un messaggio di errore.

  4. Per identificare la causa dell'errore, fare clic sull'attività non riuscita. Viene visualizzata la pagina Dettagli esecuzione attività, che visualizza l'output dell'attività, il messaggio di errore e i metadati associati.

Correggere la causa dell'errore

L'attività potrebbe avere avuto esito negativo per diversi motivi, ad esempio un problema di qualità dei dati, una configurazione errata o risorse di calcolo insufficienti. Di seguito sono riportati i passaggi consigliati per correggere alcune cause comuni di errori delle attività:

  • Se l'errore è correlato alla configurazione dell'attività, fare clic su Modifica attività. La configurazione dell'attività viene aperta in una nuova scheda. Aggiornare la configurazione dell'attività in base alle esigenze e fare clic su Salva attività.
  • Se il problema è correlato alle risorse del cluster, ad esempio istanze insufficienti, sono disponibili diverse opzioni:
    • Se il processo è configurato per l'uso di un cluster di processi, prendere in considerazione l'uso di un cluster condiviso per tutti gli scopi.
    • Modificare la configurazione del cluster. Fare clic su Modifica attività. Nel pannello Dettagli processo, in Calcolo, fare clic su Configura per configurare il cluster. È possibile modificare il numero di ruoli di lavoro, i tipi di istanza o altre opzioni di configurazione del cluster. È anche possibile fare clic su Scambia per passare a un altro cluster disponibile. Per assicurarsi di usare in modo ottimale le risorse disponibili, vedere le procedure consigliate per la configurazione del cluster.
    • Se necessario, chiedere a un amministratore di aumentare le quote di risorse nell'account cloud e nell'area in cui viene distribuita l'area di lavoro.
  • Se l'errore è causato dal superamento delle esecuzioni simultanee massime, è possibile:
    • Attendere il completamento di altre esecuzioni.
    • Fare clic su Modifica attività. Nel pannello Dettagli processo fare clic su Modifica esecuzioni simultanee, immettere un nuovo valore per Numero massimo di esecuzioni simultanee e fare clic su Conferma.

In alcuni casi, la causa di un errore può essere a monte dal processo; Ad esempio, un'origine dati esterna non è disponibile. È comunque possibile sfruttare la funzionalità di esecuzione del ripristino descritta nella sezione successiva dopo la risoluzione del problema esterno.

Riesegua attività non riuscite e ignorate

Dopo aver identificato la causa dell'errore, è possibile ripristinare i processi multi-attività non riusciti o annullati eseguendo solo il subset di attività non riuscite e qualsiasi attività dipendente. Poiché le attività riuscite e tutte le attività che dipendono da esse non vengono eseguite nuovamente, questa funzionalità riduce il tempo e le risorse necessarie per il ripristino da esecuzioni di processi non riuscite.

È possibile modificare le impostazioni del processo o dell'attività prima di ripristinare l'esecuzione del processo. Le attività non riuscite vengono rieseguate con le impostazioni correnti del processo e dell'attività. Ad esempio, se si modifica il percorso di un notebook o di un'impostazione del cluster, l'attività viene riesecuzione con le impostazioni del notebook o del cluster aggiornate.

Visualizzare la cronologia di tutte le esecuzioni di attività nella pagina Dettagli esecuzione attività.

Nota

  • Se una o più attività condividono un cluster di processi, un'esecuzione di ripristino crea un nuovo cluster di processi. Ad esempio, se l'esecuzione originale usa il cluster my_job_clusterdi processi , la prima esecuzione di ripristino usa il nuovo cluster my_job_cluster_v1di processo, consentendo di visualizzare facilmente le impostazioni del cluster e del cluster usate dall'esecuzione iniziale e da eventuali esecuzioni di ripristino. Le impostazioni per my_job_cluster_v1 sono le stesse delle impostazioni correnti per my_job_cluster.
  • Il ripristino è supportato solo con i processi che orchestrano due o più attività.
  • Il valore Durata visualizzato nella scheda Esecuzioni include l'ora di inizio della prima esecuzione fino al termine dell'ultima esecuzione di ripristino. Ad esempio, se un'esecuzione ha avuto esito negativo due volte e ha avuto esito positivo alla terza esecuzione, la durata include il tempo per tutte e tre le esecuzioni.

Per ripristinare l'esecuzione di un processo non riuscito:

  1. Fare clic sul collegamento relativo all'esecuzione non riuscita nella colonna Ora di inizio della tabella delle esecuzioni del processo oppure fare clic sull'esecuzione non riuscita nella visualizzazione matrice. Viene visualizzata la pagina Dettagli esecuzione processo.
  2. Fare clic su Ripristina esecuzione. Viene visualizzata la finestra di dialogo Ripristina esecuzione processo, che elenca tutte le attività non riuscite e tutte le attività dipendenti che verranno eseguite di nuovo.
  3. Per aggiungere o modificare parametri per le attività da ripristinare, immettere i parametri nella finestra di dialogo Ripristina esecuzione processo. I parametri immessi nella finestra di dialogo Ripristina esecuzione processo sostituiscono i valori esistenti. Nelle esecuzioni di ripristino successive è possibile restituire un parametro al valore originale deselezionando la chiave e il valore nella finestra di dialogo Ripristina esecuzione processo.
  4. Fare clic su Ripristina esecuzione nella finestra di dialogo Ripristina esecuzione processo.
  5. Al termine dell'esecuzione del ripristino, la visualizzazione matrice viene aggiornata con una nuova colonna per l'esecuzione ripristinata. Tutte le attività non riuscite che erano rosse dovrebbero ora essere verdi, a indicare un'esecuzione corretta per l'intero processo.

Visualizzare e gestire gli errori continui del processo

Quando gli errori consecutivi di un processo continuo superano una soglia, i processi di Azure Databricks usano un backoff esponenziale per ritentare il processo. Quando un processo si trova nello stato di backoff esponenziale, nel pannello Dettagli processo vengono visualizzate informazioni, tra cui:

  • Numero di errori consecutivi.
  • Periodo di esecuzione del processo senza errori da considerare riuscito.
  • Tempo prima del nuovo tentativo successivo se non è attualmente attiva alcuna esecuzione.

Per annullare l'esecuzione attiva, reimpostare il periodo di ripetizione dei tentativi e avviare una nuova esecuzione del processo, fare clic su Riavvia esecuzione.