Condividi tramite


Configurare le risorse di calcolo per i processi

Questo articolo contiene consigli e risorse per la configurazione del calcolo per i processi di Databricks.

Importante

Le limitazioni per il calcolo serverless per i processi includono quanto segue:

  • Nessun supporto per la pianificazione continua.
  • Nessun supporto per i trigger di intervallo predefinito o basato sul tempo in Structured Streaming.

Per altre limitazioni, vedere Limitazioni di calcolo serverless.

Ogni processo può avere una o più attività. Si definiscono le risorse di calcolo per ciascuna attività. Più attività definite per lo stesso processo possono usare la stessa risorsa di calcolo.

Immagine che mostra un processo con più risorse di calcolo cloud associate

La tabella seguente indica i tipi di calcolo consigliati e supportati per ciascun tipo di attività.

Nota

Il calcolo serverless per i processi presenta limitazioni e non supporta tutti i carichi di lavoro. Si veda Limitazioni di calcolo serverless.

Attività Calcolo consigliato Calcolo supportato
Notebook Processi serverless Processi serverless, processi classici, classici multiuso
Script Python Processi serverless Processi serverless, processi classici, classici multiuso
Wheel Python Processi serverless Processi serverless, processi classici, classici multiuso
SQL Warehouse SQL serverless Warehouse SQL serverless, warehouse SQL PRO
Pipeline Delta Live Table Pipeline serverless Pipeline serverless, pipeline classica
dbt Warehouse SQL serverless Warehouse SQL serverless, warehouse SQL PRO
Comandi dell'interfaccia della riga di comando dbt Processi serverless Processi serverless, processi classici, classici multiuso
JAR Processi classici Processi classici, classici multiuso
Spark Submit Processi classici Processi classici

I prezzi per i processi sono associati al calcolo usato per eseguire le attività. Per altri dettagli, si veda Prezzi Databricks.

Come configurare il calcolo per i processi?

Il calcolo dei processi classici viene configurato direttamente dall'interfaccia utente dei processi di Databricks e queste configurazioni fanno parte della definizione del processo. Tutti gli altri tipi di calcolo disponibili archiviano le configurazioni con altri asset dell'area di lavoro. La tabella seguente contiene maggiori dettagli:

Tipo di ambiente di calcolo Dettagli
Calcolo processi classici È possibile configurare il calcolo per i processi classici usando la stessa interfaccia utente e le stesse impostazioni disponibili per il calcolo multiuso. Si veda Guida di riferimento per la configurazione di calcolo.
Calcolo serverless per i processi L'ambiente di calcolo serverless per i processi è l'impostazione predefinita per tutte le attività che lo supportano. Databricks gestisce le impostazioni di calcolo per il calcolo serverless. Vedere Eseguire il processo di Azure Databricks con calcolo serverless per i flussi di lavoro. Un amministratore dell'area di lavoro deve abilitare il calcolo serverless affinché questa opzione sia visibile. Consultare la sezione Abilitare l’elaborazione serverless.
Warehouse SQL I warehouse SQL serverless e PRO vengono configurati dagli amministratori dell'area di lavoro o dagli utenti con privilegi di creazione del cluster senza restrizioni. Le attività vengono configurate per l'esecuzione su data warehouse SQL esistenti. Si veda Connettersi a un'istanza di SQL Warehouse.
Calcolo della pipeline di Delta Live Table È possibile configurare le impostazioni di calcolo per le pipeline di Delta Live Table durante la configurazione della pipeline. Vedere Configurare il calcolo per una pipeline di tabelle live Delta. Azure Databricks gestisce le risorse di calcolo per le pipeline Delta Live Table serverless. Vedere Configurare una pipeline di tabelle live Delta serverless.
Calcolo multiuso Facoltativamente, è possibile configurare le attività usando il calcolo multiuso classico. Databricks non consiglia questa configurazione per i processi di produzione. Vedere Informazioni di riferimento sulla configurazione di calcolo e Usare tutte le risorse di calcolo multiuso per i processi?.

Condividere il calcolo tra le attività

Configurare le attività per usare le stesse risorse di calcolo dei processi al fine di ottimizzare l'utilizzo delle risorse con processi che orchestrano più attività. La condivisione del calcolo tra attività può ridurre la latenza associata ai tempi di avvio.

È possibile usare una singola risorsa di calcolo di processi per eseguire tutte le attività che fanno parte del processo oppure più risorse di processi ottimizzate per carichi di lavoro specifici. Qualsiasi calcolo del processo configurato come parte di un processo è disponibile per tutte le altre attività del processo.

La tabella seguente evidenzia le differenze tra il calcolo del processo configurato per una singola attività e il calcolo del processo condiviso tra attività:

Attività singola Condivisi tra attività
Avviare All'avvio dell'esecuzione dell'attività. Quando inizia la prima esecuzione dell'attività configurata per l'uso della risorsa di calcolo.
Terminare Dopo l'esecuzione dell'attività. Dopo aver configurato l'attività finale per l'uso delle esecuzioni della risorsa di calcolo.
Calcolo inattivo Non disponibile. Il calcolo rimane attivo e inattivo mentre le attività non usano l'esecuzione della risorsa di calcolo.

Un cluster di processi condivisi ha come ambito un'esecuzione di un singolo processo e non può essere usato da altri processi o esecuzioni dello stesso processo.

I cataloghi non possono essere dichiarati in una configurazione del cluster di processi condivisi. È necessario aggiungere cataloghi dipendenti nelle impostazioni delle attività.

Esaminare, configurare e scambiare processi di calcolo

La sezione Calcolo nel pannello Dettagli processo elenca tutte le risorse di calcolo configurate per le attività nel processo corrente.

Le attività configurate per l'uso di una risorsa di calcolo vengono evidenziate nel grafico delle attività quando si passa il puntatore del mouse sulla specifica di calcolo.

Usare il pulsante Scambia per modificare il calcolo per tutte le attività associate a una risorsa di calcolo.

Le risorse di calcolo dei processi classici hanno un'opzione Configura . Altre risorse di calcolo offrono opzioni per visualizzare e modificare i dettagli della configurazione di calcolo.

Raccomandazioni per la configurazione del calcolo dei processi classici

Questa sezione è incentrata sulle raccomandazioni generali in proposito di funzionalità e configurazioni che possono trarre vantaggio da alcuni flussi di lavoro. Le raccomandazioni specifiche per la configurazione delle dimensioni e dei tipi di risorse di calcolo variano in base al carico di lavoro.

Databricks consiglia di abilitare l'accelerazione Photon, usando le versioni recenti di Databricks Runtime e usando il calcolo configurato per il catalogo Unity.

L'elaborazione serverless per i processi gestisce tutta l'infrastruttura, eliminando le considerazioni seguenti. Vedere Eseguire il processo di Azure Databricks con calcolo serverless per i flussi di lavoro.

Nota

Per i flussi di lavoro Structured Streaming ci sono raccomandazioni specifiche. Vedere Considerazioni sulla produzione per Structured Streaming.

Usare modalità di accesso condiviso

Databricks consiglia di usare la modalità di accesso condiviso per i processi. Vedere Modalità di accesso usata.

Nota

La modalità di accesso condiviso non supporta alcuni carichi di lavoro e funzionalità. Databricks consiglia la modalità di accesso utente singolo per tali carichi di lavoro. Vedere Limitazioni della modalità di accesso condiviso per il catalogo Unity.

Usare criteri di cluster

Databricks consiglia agli amministratori dell'area di lavoro di definire i criteri del cluster per i processi e di applicare tali criteri per tutti gli utenti che configurano i processi.

I criteri del cluster consentono agli amministratori dell'area di lavoro di impostare i controlli dei costi e limitare le opzioni di configurazione degli utenti. Per informazioni dettagliate sulla configurazione dei criteri del cluster, vedere Creare e gestire i criteri di calcolo.

Azure Databricks fornisce un criterio predefinito configurato per i processi. Gli amministratori possono rendere questi criteri disponibili ad altri utenti dell'area di lavoro. Vedere Ambiente di calcolo del processo.

Scalabilità automatica

Configurare la scalabilità automatica in modo che le attività a esecuzione prolungata possano aggiungere e rimuovere dinamicamente nodi di lavoro durante l'esecuzione del processo. Consultare Abilitare la scalabilità automatica.

Usare un pool per ridurre i tempi di avvio del cluster

I pool di calcolo consentono di prenotare risorse di calcolo dal provider di servizi cloud. I pool sono utili per ridurre l'ora di inizio del nuovo cluster di processi e garantire la disponibilità delle risorse di calcolo. Vedere Guida di riferimento per la configurazione del pool.

Usare istanze spot

Configurare istanze spot per i carichi di lavoro con requisiti di latenza lax per ottimizzare i costi. Vedere Istanze spot.

È consigliabile usare le risorse di calcolo multiuso per i processi?

Esistono numerosi motivi per cui Databricks consiglia di evitare l'uso di calcolo multiuso per i processi, tra cui i seguenti:

  • Azure Databricks fattura per il calcolo multiuso a un tasso diverso rispetto al calcolo processi.
  • Il calcolo dei processi termina automaticamente dopo il completamento dell'esecuzione di un processo. Il calcolo multiuso supporta la terminazione automatica, associata all'inattività anziché alla fine dell'esecuzione di un processo.
  • Le risorse di calcolo multiuso vengono spesso condivise tra team di utenti. I processi pianificati in base alle risorse di calcolo multiuso spesso hanno una latenza maggiore a causa della concorrenza per le risorse di calcolo.
  • Molte raccomandazioni per l'ottimizzazione della configurazione di calcolo dei processi non sono appropriate per il tipo di query ad hoc e per i carichi di lavoro interattivi eseguiti in un ambiente di calcolo multiuso.

Di seguito sono riportati i casi d'uso in cui è possibile scegliere di usare il calcolo multiuso per i processi:

  • Si stanno sviluppando o testando nuovi processi in modo iterativo. I tempi di avvio per il calcolo dei processi possono rendere noioso lo sviluppo iterativo. Il calcolo multiuso consente di applicare le modifiche ed eseguire rapidamente il processo.
  • Si dispone di processi di breve durata che devono essere eseguiti frequentemente o in base a una pianificazione specifica. Non esiste alcun tempo di avvio associato all'ambiente di calcolo multiuso attualmente in esecuzione. Prendere in considerazione i costi associati al tempo di inattività se si usa questo modello.

L'ambiente di calcolo serverless per i processi è il sostituto consigliato per la maggior parte dei tipi di attività che si potrebbero eseguire a fronte delle risorse di calcolo multiuso.