Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
È possibile creare ed eseguire un processo usando l'interfaccia utente di Jobs oppure strumenti per sviluppatori come la CLI di Databricks o l'API REST. Usando l'interfaccia utente o l'API, è possibile ripristinare ed eseguire di nuovo un processo non riuscito o annullato. Questo articolo illustra come creare, configurare e modificare processi usando l'interfaccia utente dell'area di lavoro Processi e pipeline . Per informazioni su altri strumenti, vedere quanto segue:
- Per informazioni sull'uso dell'interfaccia della riga di comando di Databricks per creare ed eseguire processi, vedere Che cos'è l'interfaccia della riga di comando di Databricks?.
- Per informazioni sull'uso dell'API Processi per creare ed eseguire processi, vedere Processi nelle informazioni di riferimento sull'API REST.
- Se si preferisce un approccio IaC (Infrastructure-as-Code) alla configurazione dei processi, è possibile usare i bundle di asset di Databricks. Per informazioni sull'uso dei bundle per configurare e orchestrare le attività, vedere Databricks Asset Bundles.
- Per informazioni su come eseguire e pianificare i processi direttamente in un notebook di Databricks, vedere Creare e gestire processi di notebook pianificati.
Suggerimento
Per visualizzare un lavoro come YAML, fare clic sul menu kebab a sinistra di Esegui ora per il lavoro e quindi fare clic su Passa alla versione in codice (YAML).
Qual è la configurazione minima necessaria per un processo?
Tutti i processi in Azure Databricks richiedono quanto segue:
- Un'attività che contiene la logica da eseguire, come ad esempio un notebook Databricks. Consulta Configurare e modificare le attività nei Processi Lakeflow
- Risorsa di calcolo per eseguire la logica. La risorsa di calcolo può essere calcolo serverless, calcolo per lavori classici o calcolo a uso generale. Vedere Configurare il calcolo per i processi.
- Una pianificazione specificata per quando il processo deve essere eseguito. Facoltativamente, è possibile omettere l'impostazione di una pianificazione e attivare manualmente il processo.
- Un nome univoco.
Creazione di una nuova commessa
Questa sezione descrive i passaggi per creare un nuovo lavoro con un'attività nel notebook e pianificarlo utilizzando l'interfaccia utente dell'area di lavoro.
I lavori contengono una o più attività. Crei un nuovo processo configurando la prima attività per quel processo.
Nota
Ogni tipo di attività include opzioni di configurazione dinamiche nell'interfaccia utente dell'area di lavoro. Vedere Configurare e modificare le attività in Processi Lakeflow.
- Nell'area di lavoro fare clic
Processi e pipeline nella barra laterale.
- In Nuovo fare clic su Lavoro.
- Immettere un nome per l’attività.
- Seleziona un notebook per il campo Percorso.
- Fare clic su Crea attività.
Se l'area di lavoro non è abilitata per il calcolo serverless per i processi, è necessario selezionare un'opzione Calcolo. Databricks consiglia di usare sempre il calcolo processi durante la configurazione delle attività.
Nell'elenco dei processi dell'area di lavoro viene visualizzato un nuovo processo con il nome predefinito New Job <date> <time>
.
È possibile continuare ad aggiungere altre attività all'interno dello stesso processo, se necessario per il flusso di lavoro. I lavori con più di 100 attività potrebbero avere requisiti speciali. Per ulteriori informazioni, vedere Lavori con un numero elevato di attività.
Programmazione di un'attività
È possibile decidere quando viene eseguito il compito. Per impostazione predefinita, verrà eseguito solo quando viene avviato manualmente, ma è anche possibile configurarlo per l'esecuzione automatica. È possibile creare un trigger per eseguire un processo in base a una pianificazione o in base a un evento.
Controllo del flusso di attività all'interno del compito
Quando si configurano più attività nei processi, è possibile usare attività specializzate per controllare la modalità di esecuzione delle attività. Consulta Controllare il flusso delle attività all'interno di Lakeflow Jobs.
Selezionare un lavoro da modificare nell'area di lavoro
Per modificare un processo esistente con l'interfaccia utente dell'area di lavoro, eseguire le operazioni seguenti:
- Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Processi e pipeline.
- Opzionalmente, selezionare i filtri Attività e Di mia proprietà.
- Fare clic sul Nome del collegamento del proprio lavoro.
Usare l'interfaccia utente dei processi per eseguire quanto segue:
- Modifica impostazioni del lavoro
- Rinominare, clonare o eliminare un processo
- Aggiungere nuove attività a un processo esistente
- Modifica impostazioni attività
Nota
È anche possibile visualizzare le definizioni JSON da usare con l'API REST ottenere, creare e reimpostare gli endpoint.
Modifica impostazioni dell'attività
Il pannello laterale contiene i dettagli del lavoro. È possibile modificare il trigger del processo, la configurazione di calcolo, le notifiche, il numero massimo di esecuzioni simultanee, configurare le soglie di durata e aggiungere o modificare tag. Inoltre, è possibile modificare le autorizzazioni del processo se il controllo di accesso ai processi è abilitato.
Aggiungere parametri per tutte le attività lavorative
I parametri configurati a livello di processo vengono passati alle attività del processo che accettano parametri chiave-valore, inclusi i file della rotellina Python configurati per accettare argomenti di parole chiave. Vedi Parametrizzare i lavori.
Aggiungere tag a un lavoro
Per aggiungere etichette o attributi key-value al processo, è possibile aggiungere tag quando si modifica il processo. È possibile utilizzare i tag per filtrare i processi nell'Elenco processi. Ad esempio, è possibile usare un tag department
per filtrare tutti i processi appartenenti a un reparto specifico.
Nota
Poiché i tag di processo non sono progettati per archiviare informazioni riservate, ad esempio informazioni personali o password, Databricks consiglia di usare solo tag per valori non sensibili.
I tag vengono propagati anche ai cluster di processo creati quando viene eseguito un processo, consentendo di usare tag con il monitoraggio del cluster esistente.
Fare clic su + Tag nel pannello laterale Dettagli lavoro per aggiungere o modificare tag. È possibile aggiungere il tag come etichetta o coppia chiave-valore. Per aggiungere un'etichetta, immettere l'etichetta nel campoChiave e lasciare vuoto il campo Valore.
Aggiungere un criterio di budget serverless al lavoro
Importante
Questa funzionalità si trova in anteprima pubblica.
Se l'area di lavoro utilizza politiche di budget serverless per attribuire l'utilizzo serverless, puoi selezionare la politica di budget serverless dei tuoi processi utilizzando l'impostazione Politica di budget nel pannello laterale Dettagli processo. Consulta Utilizzo degli attributi con le politiche di budget serverless.
Rinominare, clonare o eliminare un processo
Per rinominare un processo, passare all'interfaccia utente dei processi e fare clic sul nome del processo.
È possibile creare rapidamente un nuovo processo clonando un processo esistente. La clonazione di un processo crea una copia identica del processo, ad eccezione dell'ID processo. Per clonare un processo, eseguire le operazioni seguenti:
- Vai all'interfaccia utente delle attività per il lavoro.
- Fare clic
Accanto al pulsante Esegui adesso .
- Nel menu a discesa selezionare Clone job.
- Immettere un nome per l'attività clonata.
- Fare clic su Clona.
Eliminare un lavoro
Per eliminare un processo, passare alla pagina del processo, fare clic al nome del processo e selezionare Elimina processo dal menu a discesa.
Usare Git con lavori
Se il processo contiene attività che supportano l'uso di un provider Git remoto, l'interfaccia utente dei processi contiene un campo Git e l'opzione per aggiungere o modificare le impostazioni Git.
È possibile configurare i tipi di attività seguenti per l'uso di un repository Git remoto:
- Notebook
- Script di Python
- File SQL
- dbt
Tutte le attività in un processo devono fare riferimento allo stesso commit nel repository remoto. Per un processo che usa un repository remoto, è necessario specificare solo uno dei seguenti elementi:
-
branch: il nome del ramo, ad esempio
main
. -
tag: il nome del tag,
release-1.0.0
ad esempio . -
commit: l’hash di un commit specifico, ad esempio
e0056d01
.
All'avvio di un'esecuzione del processo, Databricks esegue un commit snapshot del repository remoto per assicurarsi che l'intero processo venga eseguito sulla stessa versione del codice.
Quando si visualizza la cronologia di esecuzione di un'attività che esegue il codice archiviato in un repository Git remoto, il pannello Dettagli esecuzione attività include i dettagli Git, incluso il commit SHA associato all'esecuzione. Si veda Visualizzare la cronologia di esecuzione dell’attività.
Nota
Le attività configurate per l'uso di un repository Git remoto non possono scrivere nei file dell'area di lavoro. Queste attività devono scrivere dati temporanei nell'archiviazione effimera collegata al nodo centrale del sistema di calcolo configurato per l'esecuzione dell'attività e dati persistenti in un volume o una tabella.
Databricks consiglia di fare riferimento ai percorsi dell'area di lavoro nelle cartelle Git solo per un'iterazione e un test rapidi durante lo sviluppo. Durante lo spostamento dei processi in staging e in produzione, Databricks consiglia di configurare tali processi per fare riferimento a un repository Git remoto. Per ulteriori informazioni sull'uso di un repository Git remoto con un'attività di Databricks, consultare la sezione seguente.
Configurare un provider Git
L'interfaccia utente dei processi include una finestra di dialogo per configurare un repository Git remoto. Questo dialogo è accessibile dal pannello Dettagli del processo nella sezione Git o in qualsiasi attività configurata per l'uso di un fornitore Git.
Le opzioni visualizzate per accedere alla finestra di dialogo variano in base al tipo di attività e se un riferimento Git sia già stato configurato o meno per il processo. I pulsanti per avviare la finestra di dialogo includono Aggiungi impostazioni Git, Modifica o Aggiungi un riferimento Git.
Nella finestra di dialogo Informazioni Git (appena etichettata Git se si accede dal pannello Dettagli processo), immettere i dettagli seguenti:
- L'URL del repository Git.
- Seleziona il tuo fornitore Git dall'elenco a discesa.
- Nel campo Riferimento Git immettere l'identificatore per un ramo, un tag o un commit che corrisponde alla versione del codice sorgente da eseguire.
- Seleziona il ramo, il tag o il commit dal menu a discesa.
Nota
La finestra di dialogo potrebbe richiedere quanto segue: Mancano le credenziali Git per questo account. Aggiungere le credenziali. È necessario configurare un repository Git remoto prima di usarlo come riferimento. Vedere Configurare le cartelle Git di Databricks.
Configurare le soglie per la durata dell'esecuzione del processo o le metriche del backlog di streaming
Importante
L'osservabilità dello streaming per le attività Lakeflow è disponibile in anteprima pubblica.
È possibile configurare soglie facoltative per la durata dell'esecuzione del processo o le metriche del backlog di streaming. Per configurare le soglie delle metriche di durata o di streaming, fare clic su Durata e soglie di arretrato di streaming nel pannello Dettagli processo.
Per configurare le soglie di durata del processo, inclusi i tempi di completamento previsti e massimi per il processo, selezionare Durata esecuzione nel menu a discesa Metrica. Immettere una durata nel campo Avviso per configurare il tempo di completamento previsto del processo. Se l'attività supera questa soglia, viene attivato un evento. È possibile usare questo evento per notificare quando un processo è in esecuzione lentamente. Vedere Configurare le notifiche per i processi lenti. Per configurare un tempo di completamento massimo per un processo, immettere la durata massima nel campo Timeout . Se il processo non viene completato in questa fase, Azure Databricks imposta lo stato su "Timed Out".
Per configurare una soglia per una metrica di backlog di streaming, selezionare la metrica nel menu a tendina Metrica e immettere un valore per la soglia. Per informazioni sulle metriche specifiche supportate da un'origine di streaming, vedere Visualizzare le metriche per le attività di streaming.
Se viene attivato un evento perché viene superata una soglia, è possibile usare l'evento per inviare una notifica. Vedere Configurare le notifiche per i processi lenti.
Facoltativamente, è possibile specificare soglie di durata per le attività. Vedere Configurare le soglie per la durata dell'esecuzione dell'attività o le metriche del backlog di streaming.
Abilitare l'accodamento delle esecuzioni dei lavori
Nota
Dal 15 aprile 2024, nei processi creati tramite l'interfaccia utente la coda è abilitata per impostazione predefinita.
Per impedire che le esecuzioni di un'attività vengano ignorate a causa dei limiti di concorrenza, è possibile abilitare la messa in coda per l'attività. Quando la coda è abilitata, l'esecuzione viene accodata per un massimo di 48 ore se le risorse non sono disponibili per avviare un processo. Quando la capacità è disponibile, l'esecuzione dell'attività viene rimossa dalla coda ed eseguita. Le esecuzioni in coda vengono visualizzate nell'elenco delle esecuzioni di per l'attività e nell'elenco delle esecuzioni recenti delle attività .
Un'esecuzione viene accodata quando viene raggiunto uno dei limiti seguenti:
- Numero massimo di esecuzioni attive simultanee nell'area di lavoro.
- L'attività simultanea
Run Job
massima viene eseguita nell'area di lavoro. - Numero massimo di esecuzioni simultanee del lavoro.
L'accodamento è una proprietà a livello di lavoro che mette in coda le esecuzioni solo per quel lavoro.
Per abilitare o disabilitare la coda, fare clic su Impostazioni avanzate e poi sul pulsante Attiva/Disattiva coda nel pannello laterale Dettagli processo.
Configurare il numero massimo di esecuzioni simultanee
Per impostazione predefinita, il numero massimo di esecuzioni simultanee per tutti i nuovi processi è 1.
Fare clic su Modifica esecuzioni simultanee in Impostazioni avanzate per impostare il numero massimo di esecuzioni parallele di questo processo.
Azure Databricks ignora l'esecuzione se il processo ha già raggiunto il numero massimo di esecuzioni attive quando si tenta di avviare una nuova esecuzione.
Impostare questo valore superiore a 1 per consentire più esecuzioni simultanee dello stesso processo. Ciò è utile, ad esempio, se si attiva il processo in base a una pianificazione frequente e si vuole abilitare esecuzioni consecutive per sovrapporsi o attivare più esecuzioni che differiscono in base ai parametri di input.