Eseguire il processo di Azure Databricks con calcolo serverless per i flussi di lavoro.

Articolo
10/16/2024

Importante

Poiché il calcolo serverless per i flussi di lavoro non supporta il controllo del traffico in uscita, i processi hanno accesso completo a Internet.

Il calcolo serverless per i flussi di lavoro consente di eseguire il processo di Azure Databricks senza configurare e distribuire l’infrastruttura. Con il calcolo serverless, ci si concentra sull'implementazione delle pipeline di elaborazione e analisi dei dati, mentre Databricks gestisce in modo efficiente le risorse di calcolo, tra cui l'ottimizzazione e il ridimensionamento del calcolo per i carichi di lavoro. La scalabilità automatica e Photon vengono abilitate automaticamente per le risorse di calcolo che eseguono il processo.

Il calcolo serverless per l'ottimizzazione automatica dei flussi di lavoro ottimizza automaticamente le risorse di calcolo selezionando risorse appropriate, ad esempio tipi di istanza, memoria e motori di elaborazione in base al carico di lavoro. Anche l'ottimizzazione automatica ritenta automaticamente i task non riusciti.

Databricks aggiorna automaticamente la versione di Databricks Runtime per supportare miglioramenti e aggiornamenti alla piattaforma garantendo al tempo stesso la stabilità dei processi di Azure Databricks. Per visualizzare la versione corrente di Databricks Runtime usata dal calcolo serverless per i flussi di lavoro, vedere Note sulla versione di calcolo serverless.

Poiché non è necessaria l'autorizzazione di creazione del cluster, tutti gli utenti dell'area di lavoro possono usare il calcolo serverless per eseguire i flussi di lavoro.

Questo articolo descrive l'uso dell'interfaccia utente dei processi di Azure Databricks per creare ed eseguire processi che usano calcolo serverless. È anche possibile automatizzare la creazione e l'esecuzione di processi che usano il calcolo serverless con l'API Processi, i bundle di asset di Databricks e Databricks SDK per Python.

Per informazioni sull'uso dell'API Processi per creare ed eseguire processi che usano calcoli serverless, vedere Processi nelle informazioni di riferimento sull'API REST.
Per informazioni sull'uso dei bundle di asset di Databricks per creare ed eseguire processi che usano il calcolo serverless, vedere Sviluppare un processo in Azure Databricks usando i bundle di asset di Databricks.
Per informazioni sull'uso di Databricks SDK per Python per creare ed eseguire processi che usano calcolo serverless, vedere Databricks SDK per Python.

Requisiti

L'area di lavoro Azure Databricks deve avere Unity Catalog abilitato.
Poiché il calcolo serverless per i flussi di lavoro usa la modalità di accesso condiviso, i carichi di lavoro devono supportare questa modalità di accesso.
L’area di lavoro Azure Databricks si trova in una regione supportata. Vedere Disponibilità di nuove funzionalità.
L'account Azure Databricks deve avere un ambiente di calcolo serverless abilitato. Consultare la sezione Abilitare l’elaborazione serverless.

Creare un processo che usa l'ambiente di calcolo serverless

Nota

Poiché il calcolo serverless per i flussi di lavoro garantisce che venga effettuato il provisioning di risorse sufficienti per eseguire i carichi di lavoro, è possibile che si verifichi un aumento dei tempi di avvio quando si esegue un processo di Azure Databricks che richiede grandi quantità di memoria o include molte attività.

Il calcolo serverless è supportato con i tipi di attività notebook, script Python, dbt e Python wheel. Per impostazione predefinita, il calcolo serverless viene selezionato come tipo di calcolo quando si crea un nuovo processo e si aggiunge uno di questi tipi di attività supportati.

Crea task serverless

Databricks consiglia di usare l'elaborazione serverless per tutti i task del processo. È anche possibile specificare tipi di calcolo diversi per i task in un processo, che potrebbero essere necessarie se un tipo di attività non è supportato dall'elaborazione serverless per i flussi di lavoro.

Configurare un processo esistente per l'uso dell'elaborazione serverless

È possibile cambiare un processo esistente per usare l'elaborazione serverless per i tipi di task supportati quando si modifica il processo. Per passare all'elaborazione serverless, eseguire una delle operazioni seguenti:

Nel pannello laterale Dettagli del processo cliccare Scambia in Calcolo, cliccare Nuovo, immettere o aggiornare le impostazioni e cliccare Aggiorna.
Cliccare nel menu a discesa Calcolo e selezionare Serverless.

Passare all'attività di elaborazione serverless

Pianificare un notebook usando l'elaborazione serverless

Oltre a usare l'interfaccia utente Processi per creare e pianificare un processo usando il calcolo serverless, è possibile creare ed eseguire un processo che usa l'elaborazione serverless direttamente da un notebook di Databricks. Vedere Creare e gestire processi pianificati.

Impostare i parametri di configurazione Spark

Per automatizzare la configurazione di Spark nell'elaborazione serverless, Databricks consente di impostare solo parametri di configurazione Spark specifici. Per l'elenco dei parametri consentiti, vedere Parametri di configurazione di Spark supportati.

È possibile impostare i parametri di configurazione di Spark solo a livello di sessione. A tale scopo, impostarli in un notebook e aggiungere il notebook a un'attività inclusa nello stesso processo che usa i parametri. Vedere Ottenere e impostare le proprietà di configurazione di Apache Spark in un notebook.

Configurare ambienti e dipendenze

Per informazioni su come installare librerie e dipendenze usando l'elaborazione serverless, vedere Installare le dipendenze dei notebook.

Configurare l'ottimizzazione automatica dell'elaborazione serverless per impedire i nuovi tentativi

L'elaborazione serverless per l'ottimizzazione automatica dei flussi di lavoro ottimizza automaticamente l'ambiente di calcolo usato per eseguire i processi e ritenta di eseguire i task non riusciti. L'ottimizzazione automatica è abilitata per impostazione predefinita e Databricks consiglia di lasciare abilitata per garantire che i carichi di lavoro critici vengano eseguiti correttamente almeno una volta. Tuttavia, se si dispone di carichi di lavoro che devono essere eseguiti contemporaneamente, ad esempio processi che non sono idempotenti, è possibile disattivare l'ottimizzazione automatica durante l'aggiunta o la modifica di un task:

Accanto a Nuovi tentativi, cliccare Aggiungi (o se esiste già un criterio di ripetizione dei tentativi).
Nella finestra di dialogo Criteri di ripetizione deselezionare Abilita ottimizzazione automatica serverless (potrebbe includere tentativi aggiuntivi).
Cliccare Conferma.
Se si sta aggiungendo un task, cliccare Crea task. Se si sta modificando un task, cliccare Salva task.

Monitorare il costo dei processi che usano l'elaborazione serverless per i flussi di lavoro

È possibile monitorare il costo dei processi che usano l'elaborazione serverless per i flussi di lavoro eseguendo una query sulla tabella del sistema di utilizzo fatturabile. Questa tabella viene aggiornata per includere attributi dell’utente e del carico di lavoro relativi ai costi serverless. Consultare Informazioni di riferimento sulla tabella del sistema di utilizzo fatturabile.

Visualizzare i dettagli per le query Spark

L'elaborazione serverless per i flussi di lavoro include una nuova interfaccia per visualizzare informazioni dettagliate sul runtime per le istruzioni Spark, ad esempio metriche e piani di query. Per visualizzare informazioni dettagliate sulle query per le istruzioni Spark incluse nei processi eseguiti nell'elaborazione serverless:

Cliccare Flussi di lavoro nella barra laterale.
Nella colonna Nome cliccare il nome del processo per cui si vogliono visualizzare le informazioni dettagliate.
Cliccare l'esecuzione specifica per cui si vogliono visualizzare informazioni dettagliate.
Nella sezione Calcolo del pannello laterale Esecuzione task, cliccare Cronologia query.
Si viene reindirizzati alla cronologia query, prefiltrata in base all'ID di esecuzione dell'attività in cui si trovava l'attività.

Per informazioni sull'uso della cronologia delle query, vedere Cronologia query.

Limiti

Per un elenco delle limitazioni del calcolo serverless per i flussi di lavoro, vedere Limitazioni dell'elaborazione serverless nelle note sulla versione dell'elaborazione serverless.

Condividi tramite