Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo contiene raccomandazioni e risorse per la configurazione del calcolo per i processi Lakeflow.
Importante
Le limitazioni per il calcolo serverless per i processi sono le seguenti:
- Nessun supporto per la pianificazione continua.
- Nessun supporto per i trigger di intervallo predefinito o basato sul tempo in Structured Streaming.
Per altre limitazioni, vedere Limitazioni di calcolo serverless.
Ogni lavoro può avere una o più attività. Si definiscono le risorse di calcolo per ciascuna attività. Più attività definite per lo stesso processo possono usare la stessa risorsa di calcolo.
Qual è il calcolo consigliato per ciascuna attività?
La tabella seguente indica i tipi di calcolo consigliati e supportati per ogni tipo di attività.
Nota
Il calcolo serverless per i processi presenta limitazioni e non supporta tutti i carichi di lavoro. Si veda Limitazioni di calcolo serverless.
Attività | Calcolo consigliato | Calcolo supportato |
---|---|---|
Notebook | Attività serverless | Processi serverless, processi classici, classici per tutti gli usi |
Script Python | Attività serverless | Processi serverless, processi classici, classici per tutti gli usi |
wheel di Python | Attività serverless | Processi serverless, processi classici, classici per tutti gli usi |
SQL | Magazzino SQL senza server | Warehouse SQL senza server, warehouse SQL pro |
Pipeline dichiarative di Lakeflow | Pipeline serverless | Pipeline serverless, pipeline classica |
dbt | Magazzino SQL senza server | Warehouse SQL senza server, warehouse SQL pro |
Comandi dell'interfaccia della riga di comando dbt | Attività serverless | Processi serverless, processi classici, classici per tutti gli usi |
BARATTOLO | Lavori classici | Lavori classici, classici tuttofare |
Invio spark | Lavori classici | Lavori classici |
I prezzi per i processi Lakeflow sono associati al calcolo usato per eseguire le attività. Per altri dettagli, si veda Prezzi Databricks.
Come configurare il calcolo per i lavori?
Il calcolo dei processi classici viene configurato direttamente dall'interfaccia utente dei processi Lakeflow e queste configurazioni fanno parte della definizione del processo. Tutti gli altri tipi di calcolo disponibili archiviano le configurazioni con altri asset dell'area di lavoro. La tabella seguente contiene altri dettagli:
Tipo di ambiente di calcolo | Dettagli |
---|---|
Calcolo lavori classici | È possibile configurare il calcolo per i processi classici usando la stessa interfaccia utente e le stesse impostazioni disponibili per il calcolo multiuso. Si veda Guida di riferimento per la configurazione di calcolo. |
Calcolo serverless per le attività | L'ambiente di calcolo serverless per i processi è l'impostazione predefinita per tutte le attività che lo supportano. Databricks gestisce le impostazioni di calcolo per il calcolo serverless. Vedere Eseguire processi Lakeflow con calcolo serverless per i flussi di lavoro. Un amministratore dell'area di lavoro deve abilitare il calcolo serverless affinché questa opzione sia visibile. Consultare la sezione Abilitare l’elaborazione serverless. |
magazzini SQL | I magazzini SQL serverless e PRO vengono configurati dagli amministratori dell'area di lavoro o dagli utenti con privilegi senza restrizioni per la creazione di cluster. Le attività vengono configurate per l'esecuzione su data warehouse SQL esistenti. Vedi Connettersi a un SQL Warehouse. |
Calcolo delle Pipeline Dichiarative di Lakeflow | È possibile configurare le impostazioni di calcolo per le pipeline dichiarative di Lakeflow durante la configurazione della pipeline. Vedere Configurare il calcolo per le pipeline dichiarative di Lakeflow. Azure Databricks gestisce le risorse di calcolo per le pipeline dichiarative di Lakeflow serverless. Consulta Configurare una pipeline serverless. |
Calcolo multiuso | Facoltativamente, è possibile configurare le attività usando il calcolo multiuso classico. Databricks non consiglia questa configurazione per i processi di produzione. Consulta Informazioni di riferimento sulla configurazione di calcolo e Si dovrebbe mai utilizzare il calcolo generico per le attività?. |
Condividere il calcolo tra le attività
Configurare le attività per usare le stesse risorse di calcolo dei processi per ottimizzare l'utilizzo delle risorse con processi che orchestrano più attività. La condivisione del calcolo tra attività può ridurre la latenza associata ai tempi di avvio.
È possibile usare una singola risorsa di calcolo di processi per eseguire tutte le attività che fanno parte del processo oppure più risorse di processi ottimizzate per carichi di lavoro specifici. Qualsiasi calcolo del processo configurato come parte di un processo è disponibile per tutte le altre attività del processo.
La tabella seguente evidenzia le differenze tra il calcolo del processo configurato per una singola attività e il calcolo del processo condiviso tra le attività:
Attività singola | Condivisi tra attività | |
---|---|---|
Avviare | All'inizio dell'esecuzione dell'attività. | Quando inizia la prima esecuzione dell'attività configurata per l'uso della risorsa di calcolo. |
Terminare | Dopo l'esecuzione dell'attività. | Dopo che l'attività finale configurata per utilizzare la risorsa di calcolo viene eseguita. |
Calcolo inattivo | Non disponibile. | La computazione rimane attiva e in standby mentre le attività non utilizzano la risorsa di calcolo. |
Un cluster di processi condivisi ha come ambito un'esecuzione di un singolo processo e non può essere usato da altri processi o esecuzioni dello stesso processo.
Le librerie non possono essere dichiarate in una configurazione del cluster di lavori condivisi. È necessario aggiungere cataloghi dipendenti nelle impostazioni delle attività.
Esaminare, configurare e scambiare processi di calcolo
La sezione Calcolo nel pannello Dettagli processo elenca tutte le risorse di calcolo configurate per le attività nel processo corrente.
Le attività configurate per l'uso di una risorsa di calcolo vengono evidenziate nel grafico delle attività quando si passa il puntatore del mouse sulla specifica di calcolo.
Usare il pulsante Scambia per modificare il calcolo per tutte le attività associate a una risorsa di calcolo.
Le risorse di calcolo dei processi classici hanno un'opzione Configura . Altre risorse di calcolo offrono opzioni per visualizzare e modificare i dettagli della configurazione di calcolo.
Maggiori informazioni
Per altri dettagli sulla configurazione dei processi classici di Azure Databricks, vedere Procedure consigliate per la configurazione di processi Lakeflow classici.