Configurare le impostazioni per i processi di Azure Databricks

Questo articolo fornisce informazioni dettagliate sulla configurazione dei processi di Azure Databricks e sulle singole attività di processo nell'interfaccia utente dei processi. Per informazioni sull'uso dell'interfaccia della riga di comando di Databricks per modificare le impostazioni del processo, eseguire il comando dell'interfaccia della riga di comando databricks jobs update -h. Per informazioni sull'uso dell'API Processi, vedere l'API Processi.

Alcune opzioni di configurazione sono disponibili nel processo e altre opzioni sono disponibili nelle singole attività. Ad esempio, le esecuzioni simultanee massime possono essere impostate solo nel processo, mentre i criteri di ripetizione dei tentativi sono definiti per ogni attività.

Modificare un processo

Per modificare la configurazione per un processo:

  1. Fare clic su Icona ProcessiFlussi di lavoro nella barra laterale.
  2. Nella colonna Nome fare clic sul nome del processo.

Nel pannello laterale vengono visualizzati i dettagli del processo. È possibile modificare il trigger per il processo, la configurazione di calcolo, le notifiche, il numero massimo di esecuzioni simultanee, configurare le soglie di durata e aggiungere o modificare tag. Se il controllo di accesso ai processi è abilitato, è anche possibile modificare le autorizzazioni del processo.

Aggiungere parametri per tutte le attività del processo

È possibile configurare i parametri in un processo passato a una delle attività del processo che accettano parametri chiave-valore, inclusi i file wheel python configurati per accettare argomenti di parole chiave. I parametri impostati a livello di processo vengono aggiunti ai parametri a livello di attività configurati. I parametri del processo passati alle attività sono visibili nella configurazione dell'attività, insieme a tutti i parametri configurati nell'attività.

È anche possibile passare parametri di processo alle attività non configurate con parametri chiave-valore, ad JAR esempio o Spark Submit attività. Per passare i parametri del processo a queste attività, formattare gli argomenti come {{job.parameters.[name]}}, sostituendo [name] con l'oggetto key che identifica il parametro .

I parametri del processo hanno la precedenza sui parametri dell'attività. Se un parametro di processo e un parametro dell'attività hanno la stessa chiave, il parametro del processo esegue l'override del parametro dell'attività.

È possibile eseguire l'override dei parametri del processo configurati o aggiungere nuovi parametri di processo quando si esegue un processo con parametri diversi o ripristinare un'esecuzione del processo.

È anche possibile condividere il contesto sui processi e le attività usando un set di riferimenti a valori dinamici.

Per aggiungere parametri di processo, fare clic su Modifica parametri nel pannello laterale Dettagli processo e specificare la chiave e il valore predefinito di ogni parametro. Per visualizzare un elenco di riferimenti a valori dinamici disponibili, fare clic su Sfoglia valori dinamici.

Aggiungere tag a un processo

Per aggiungere etichette o attributi key:value al processo, è possibile aggiungere tag quando si modifica il processo. È possibile usare tag per filtrare i processi nell'elenco Processi. È ad esempio possibile usare un department tag per filtrare tutti i processi appartenenti a un reparto specifico.

Nota

Poiché i tag di processo non sono progettati per archiviare informazioni riservate, ad esempio informazioni personali o password, Databricks consiglia di usare tag solo per valori non sensibili.

I tag vengono propagati anche ai cluster di processo creati quando viene eseguito un processo, consentendo di usare tag con il monitoraggio del cluster esistente.

Per aggiungere o modificare tag, fare clic su + Tag nel pannello laterale Dettagli processo. È possibile aggiungere il tag come chiave e valore o come etichetta. Per aggiungere un'etichetta, immettere l'etichetta nel campo Chiave e lasciare vuoto il campo Valore .

Configurare cluster condivisi

Per visualizzare le attività associate a un cluster, fare clic sulla scheda Attività e passare il puntatore del mouse sul cluster nel pannello laterale. Per modificare la configurazione del cluster per tutte le attività associate, fare clic su Configura nel cluster. Per configurare un nuovo cluster per tutte le attività associate, fare clic su Scambia nel cluster.

Controllare l'accesso a un processo

Il controllo di accesso ai processi consente ai proprietari e agli amministratori dei processi di concedere autorizzazioni specifiche per i processi. I proprietari dei processi possono scegliere quali altri utenti o gruppi possono visualizzare i risultati del processo. I proprietari possono anche scegliere chi può gestire le esecuzioni del processo (Esegui ora e Annulla autorizzazioni di esecuzione).

Per informazioni sui livelli di autorizzazione del processo, vedere ACL di processo.

Per gestire le autorizzazioni per il processo, è necessario disporre dell'autorizzazione CAN MANAGE o IS OWNER per gestirle.

  1. Nella barra laterale fare clic su Esecuzioni processi.

  2. Fare clic sul nome di un processo.

  3. Nel pannello Dettagli processo fare clic su Modifica autorizzazioni.

  4. In Autorizzazione Impostazioni fare clic sul menu a discesa Seleziona utente, gruppo o entità servizio e selezionare un utente, un gruppo o un'entità servizio.

    Finestra di dialogo Autorizzazioni Impostazioni

  5. Fare clic su Aggiungi.

  6. Fare clic su Salva.

Gestire il proprietario del processo

Per impostazione predefinita, l'autore di un processo ha l'autorizzazione IS OWNER ed è l'utente nell'impostazione Esegui come del processo. Il processo viene eseguito come identità dell'utente nell'impostazione Esegui come . Per altre informazioni sull'impostazione Esegui come , vedere Eseguire un processo come entità servizio.

Gli amministratori dell'area di lavoro possono modificare il proprietario del processo in se stessi. Quando la proprietà viene trasferita, al proprietario precedente viene concessa l'autorizzazione CAN MANAGE

Nota

Quando l'impostazione in un'area RestrictWorkspaceAdmins di lavoro è impostata su ALLOW ALL, gli amministratori dell'area di lavoro possono modificare un proprietario del processo in qualsiasi utente o entità servizio nell'area di lavoro. Per limitare gli amministratori dell'area di lavoro a modificare solo il proprietario di un processo, vedere Limitare gli amministratori dell'area di lavoro.

Configurare il numero massimo di esecuzioni simultanee

Fare clic su Modifica esecuzioni simultanee in Impostazioni avanzate per impostare il numero massimo di esecuzioni parallele per questo processo. Azure Databricks ignora l'esecuzione se il processo ha già raggiunto il numero massimo di esecuzioni attive quando si tenta di avviare una nuova esecuzione. Impostare questo valore superiore al valore predefinito 1 per eseguire più esecuzioni dello stesso processo contemporaneamente. Ciò è utile, ad esempio, se si attiva il processo in base a una pianificazione frequente e si vuole consentire la sovrapposizione di esecuzioni consecutive tra loro o si desidera attivare più esecuzioni che differiscono in base ai relativi parametri di input.

Abilitare la coda di esecuzioni di processi

Per abilitare le esecuzioni di un processo da inserire in una coda da eseguire in un secondo momento quando non possono essere eseguite immediatamente a causa dei limiti di concorrenza, fare clic sull'interruttore Coda in Impostazioni avanzate. Vedere Cosa accade se il processo non può essere eseguito a causa dei limiti di concorrenza?

Nota

La coda è abilitata per impostazione predefinita per i processi creati tramite l'interfaccia utente dopo il 15 aprile 2024.

Configurare un tempo di completamento previsto o un timeout per un processo

È possibile configurare soglie di durata facoltative per un processo, inclusi un tempo di completamento previsto per il processo e un tempo di completamento massimo per il processo. Per configurare le soglie di durata, fare clic su Imposta soglie di durata.

Per configurare un tempo di completamento previsto per il processo, immettere la durata prevista nel campo Avviso . Se il processo supera questa soglia, è possibile configurare le notifiche per il processo a esecuzione lenta. Vedere Configurare le notifiche per i processi in esecuzione lenta o in ritardo.

Per configurare un tempo di completamento massimo per un processo, immettere la durata massima nel campo Timeout . Se il processo non viene completato in questa fase, Azure Databricks imposta lo stato su "Timed Out" e il processo viene arrestato.

Modificare un'attività

Per impostare le opzioni di configurazione delle attività:

  1. Fare clic su Icona ProcessiFlussi di lavoro nella barra laterale.
  2. Nella colonna Nome fare clic sul nome del processo.
  3. Fare clic sulla scheda Attività e selezionare l'attività da modificare.

Definire le dipendenze delle attività

È possibile definire l'ordine di esecuzione delle attività in un processo usando il menu a discesa Depends on . È possibile impostare questo campo su una o più attività nel processo.

Modificare le dipendenze delle attività

Nota

Dipende da non è visibile se il processo è costituito da una sola attività.

La configurazione delle dipendenze delle attività crea un grafo aciclico diretto (DAG) dell'esecuzione dell'attività, un modo comune per rappresentare l'ordine di esecuzione nelle utilità di pianificazione dei processi. Si consideri ad esempio il processo seguente costituito da quattro attività:

Diagramma di esempio delle dipendenze delle attività

  • L'attività 1 è l'attività radice e non dipende da altre attività.
  • L'attività 2 e l'attività 3 dipendono dall'attività 1 completata per prima.
  • Infine, l'attività 4 dipende dall'attività 2 e dall'attività 3 completata correttamente.

Azure Databricks esegue attività upstream prima di eseguire attività downstream, eseguendone il maggior numero possibile in parallelo. Il diagramma seguente illustra l'ordine di elaborazione per queste attività:

Flusso di esempio delle dipendenze delle attività

Configurare un cluster per un'attività

Per configurare il cluster in cui viene eseguita un'attività, fare clic sul menu a discesa Cluster .To configure the cluster where a task runs, click the Cluster drop-down menu. È possibile modificare un cluster di processi condivisi, ma non è possibile eliminare un cluster condiviso se altre attività lo usano ancora.

Per altre informazioni sulla selezione e la configurazione dei cluster per l'esecuzione di attività, vedere Usare l'ambiente di calcolo di Azure Databricks con i processi.

Configurare le librerie dipendenti

Le librerie dipendenti verranno installate nel cluster prima dell'esecuzione dell'attività. È necessario impostare tutte le dipendenze dell'attività per assicurarsi che vengano installate prima dell'avvio dell'esecuzione. Seguire le indicazioni in Gestire le dipendenze della libreria per specificare le dipendenze.

Configurare un tempo di completamento previsto o un timeout per un'attività

È possibile configurare soglie di durata facoltative per un'attività, inclusi un tempo di completamento previsto per l'attività e un tempo di completamento massimo per l'attività. Per configurare le soglie di durata, fare clic su Soglia durata.

Per configurare il tempo di completamento previsto dell'attività, immettere la durata nel campo Avviso . Se l'attività supera questa soglia, viene attivato un evento. È possibile usare questo evento per notificare quando un'attività è in esecuzione lentamente. Vedere Configurare le notifiche per i processi in esecuzione lenta o in ritardo.

Per configurare un tempo di completamento massimo per un'attività, immettere la durata massima nel campo Timeout . Se l'attività non viene completata in questa fase, Azure Databricks imposta lo stato su "Timed Out".

Configurare un criterio di ripetizione dei tentativi per un'attività

Per configurare un criterio che determina quando e quante volte vengono ritentate le esecuzioni di attività non riuscite, fare clic su + Aggiungi accanto a Tentativi. L'intervallo di ripetizione dei tentativi viene calcolato in millisecondi tra l'inizio dell'esecuzione non riuscita e l'esecuzione successiva dei tentativi.

Nota

Se si configurano sia timeout che tentativi, il timeout si applica a ogni tentativo.