Riferimento per la configurazione di calcolo

Nota

L'organizzazione di questo articolo presuppone che si stia usando l'interfaccia utente di calcolo del modulo semplice. Per una panoramica degli aggiornamenti del modulo semplice, vedere Usare il modulo semplice per gestire le risorse di calcolo.

Questo articolo illustra le impostazioni di configurazione disponibili durante la creazione di una nuova risorsa di calcolo per tutti gli scopi o processi. La maggior parte degli utenti crea risorse di calcolo utilizzando i criteri assegnati, il che limita le impostazioni configurabili. Se non viene visualizzata una particolare impostazione nell'interfaccia utente, il criterio selezionato non consente di configurare tale impostazione.

Per consigli sulla configurazione del calcolo per il carico di lavoro, vedere Consigli sulla configurazione del calcolo.

modulo di calcolo semplice

Le configurazioni e gli strumenti di gestione descritti in questo articolo si applicano sia al calcolo universale che al calcolo di processi. Per altre considerazioni sulla configurazione del calcolo dei processi, si veda Configurare il calcolo per i processi.

Creare una nuova risorsa di calcolo universale

Per creare una nuova risorsa di calcolo universale:

Nella barra laterale dell'area di lavoro, cliccare su Calcolo.
Fare clic sul pulsante Crea ambiente di calcolo.
Configurare le risorse dell’ambiente di calcolo.
Clicca su Crea.

La nuova risorsa di calcolo verrà avviata automaticamente e in breve tempo sarà pronta per essere usata.

Politica di calcolo

I criteri sono set di regole usate per limitare le opzioni di configurazione disponibili agli utenti quando creano risorse di calcolo. Se un utente non ha il diritto di creazione di cluster senza restrizioni , può creare solo risorse di calcolo usando i criteri concessi.

Per creare risorse di calcolo in base a un criterio, selezionare un criterio dal menu a discesa Criteri.

Per impostazione predefinita, tutti gli utenti hanno accesso ai criteri di Ambiente di calcolo personale, consentendo loro di creare risorse di calcolo a computer singolo. Se hai bisogno di accedere al personal compute o a eventuali criteri politici aggiuntivi, contatta l'amministratore dell'area di lavoro.

Impostazioni delle prestazioni

Le seguenti impostazioni vengono visualizzate nella sezione prestazioni dell'interfaccia utente di calcolo semplice:

Versioni del runtime di Databricks
Usa l'accelerazione Photon
tipo di nodo di lavoro
calcolo a nodo singolo
Abilitare la scalabilità automatica
Impostazioni avanzate delle prestazioni

Versioni di Databricks Runtime

Databricks Runtime è il set di componenti di base che vengono eseguiti sul tuo calcolatore. Utilizzare il menu a discesa Versione di Databricks Runtime per selezionare il runtime. Per dettagli su versioni specifiche di Databricks Runtime, si veda Versioni e compatibilità delle note di rilascio di Databricks Runtime. Tutte le versioni includono Apache Spark. Databricks consiglia quanto segue:

Per il calcolo universale, usare la versione più recente per assicurarsi di avere le ultime ottimizzazioni e la compatibilità più aggiornata tra il codice e i pacchetti precaricati.
Per i calcoli di lavoro informatizzati che eseguono carichi di lavoro operativi, si consiglia di usare la versione LTS (Long Term Support) di Databricks Runtime. L'uso della versione LTS garantisce che non si verifichino problemi di compatibilità e possa testare accuratamente il carico di lavoro prima dell'aggiornamento.
Per i casi d'uso di Data Science e Machine Learning, valutare l’utilizzo della versione di Databricks Runtime ML.

Utilizzare l'accelerazione Photon

Photon è abilitato per impostazione predefinita nel calcolo che esegue Databricks Runtime 9.1 LTS e versioni successive.

Per abilitare o disabilitare l'accelerazione Photon, selezionare la casella di controllo Usa accelerazione Photon. Per altre informazioni su Photon, si veda Che cos'è Photon?.

tipo di nodo di lavoro

Una risorsa di calcolo è costituita da un nodo driver e da zero o più nodi di lavoro. È possibile selezionare tipi di istanza del provider di servizi cloud separati per i nodi driver e di lavoro, anche se per impostazione predefinita il nodo driver utilizza lo stesso tipo di istanza del nodo di lavoro. L'impostazione del nodo driver si trova sotto la sezione prestazioni avanzate.

Diverse famiglie di tipi di istanza si adattano a casi d'uso diversi, ad esempio carichi di lavoro a elevato utilizzo di memoria o a elevato utilizzo di calcolo. È anche possibile selezionare un pool da usare come nodo di lavoro o driver.

Importante

Non utilizzare un pool con istanze spot per il tipo di driver. Selezionare un tipo di driver su richiesta per impedire che il driver venga recuperato. Vedere Connettersi ai pool.

Nel calcolo a più nodi, i nodi di lavoro eseguono gli executor Spark e altri servizi necessari affinché la risorsa di calcolo funzioni correttamente. Quando si distribuisce il carico di lavoro con Spark, tutte le attività di elaborazione distribuita vengono eseguite nei nodi di lavoro. Azure Databricks esegue un executor per ogni nodo di lavoro. Pertanto, i termini executor e worker vengono usati in modo intercambiabile nel contesto dell'architettura di Databricks.

Suggerimento

Per eseguire un processo Spark, è necessario almeno un nodo di lavoro. Se una risorsa di calcolo non ha nodi di lavoro, è possibile eseguire comandi non Spark nel nodo driver, ma i comandi di Spark avranno esito negativo.

Tipi di nodo flessibili

Se l'area di lavoro dispone di tipi di nodo flessibili abilitati, è possibile usare tipi di nodo flessibili per la risorsa di calcolo. I tipi di nodo flessibili consentono alla risorsa di calcolo di eseguire il fallback a tipi di istanza alternativi e compatibili quando il tipo di istanza specificato non è disponibile. Questo comportamento migliora l'affidabilità dell'avvio del calcolo riducendo gli errori di capacità durante l'avvio del calcolo. Vedere Migliorare l'affidabilità dell'avvio del calcolo usando tipi di nodo flessibili.

Indirizzi IP dei nodi di lavoro

Azure Databricks avvia nodi di lavoro con due indirizzi IP privati ciascuno. L'indirizzo IP privato primario del nodo ospita il traffico interno di Azure Databricks. L'indirizzo IP privato secondario viene usato dal contenitore Spark per la comunicazione all'interno del cluster. Questo modello consente ad Azure Databricks di assicurare l'isolamento tra più risorse di calcolo nella stessa area di lavoro.

Tipi di istanza GPU

Per attività complesse dal calcolo che richiedono prestazioni elevate, ad esempio quelle associate all'apprendimento avanzato, Azure Databricks supporta risorse di calcolo accelerate con unità di elaborazione grafica (GPU). Per altre informazioni, si veda Risorse di calcolo con GPU.

Macchine virtuali di computing riservato di Azure

I tipi di VM per il computing riservato di Azure impediscono l'accesso non autorizzato ai dati mentre sono in uso, compreso l'operatore cloud. Questo tipo di macchina virtuale è vantaggioso per settori e aree altamente regolamentati, nonché per le aziende con dati sensibili nel cloud. Per altre informazioni sul confidential computing di Azure, vedere Confidential computing di Azure.

Per eseguire i carichi di lavoro usando le macchine virtuali di Azure per il calcolo riservato, selezionare tra i tipi di VM della serie DC o EC negli elenchi a discesa nodi di lavoro e nodi driver. Si veda Opzioni per la macchina virtuale riservata di Azure.

calcolo a nodo singolo

La casella di controllo nodo singolo consente di creare una risorsa di calcolo a nodo singolo.

Il calcolo a nodo singolo è destinato ai processi che utilizzano piccole quantità di dati o carichi di lavoro non distribuiti, ad esempio librerie di Machine Learning a nodo singolo. Il calcolo a più nodi deve essere utilizzato per processi di grandi dimensioni con carichi di lavoro distribuiti.

Proprietà del nodo singolo

Una risorsa di calcolo a nodo singolo ha le proprietà seguenti:

Esegue Spark localmente.
Il driver funge sia da master sia da worker, senza nodi di lavoro.
Crea un thread di esecuzione per ogni core logico della risorsa di calcolo, meno 1 core per il driver.
Salva tutti gli output di log stderr, stdout e log4j nel log del driver.
Non è possibile convertire in una risorsa di calcolo multinodo.

Scegliere una risorsa a nodo singolo o multinodo

Quando si decide tra risorsa di calcolo a nodo singolo o multinodo, occorre valutare il caso d'uso:

L'elaborazione di dati su larga scala esaurirà le risorse di calcolo a nodo singolo. Per questi carichi di lavoro, Databricks consiglia di usare risorse di calcolo multinodo.
Non è possibile ridimensionare una risorsa di calcolo multinodo a 0 ruoli di lavoro. Usare invece una risorsa di calcolo a nodo singolo.
La pianificazione GPU non è abilitata per le risorse di calcolo a nodo singolo.
Nel calcolo a nodo singolo, Spark non è in grado di leggere i file Parquet con una colonna UDT. Come risultato, vengono generati i seguenti messaggi di errore:
```
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
```
Per risolvere questo problema, disabilitare il lettore Parquet nativo:
```
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
```

Abilitare la scalabilità automatica

Quando si seleziona Abilita scalabilità automatica, è possibile specificare un numero minimo e massimo di ruoli di lavoro per la risorsa di calcolo. Databricks sceglie quindi il numero appropriato di lavoratori necessari per eseguire l'attività.

Per impostare il numero minimo e il numero massimo di ruoli di lavoro tra cui la risorsa di calcolo verrà ridimensionata automaticamente, usare i campi min min e max accanto all'elenco a discesa tipo di lavoro.

Se non si abilita la scalabilità automatica, è necessario immettere un numero fisso di ruoli di lavoro nel campo Ruoli di lavoro accanto all'elenco a discesa Tipo di lavoro .

Nota

Quando la risorsa di calcolo è in esecuzione, nella pagina dei dettagli di calcolo viene visualizzato il numero di ruoli di lavoro assegnati. È possibile confrontare il numero di ruoli di lavoro assegnati con la configurazione del ruolo di lavoro e apportare modifiche in base alle esigenze.

Vantaggi della scalabilità automatica

Con la scalabilità automatica, Azure Databricks rialloca dinamicamente i worker in base alle caratteristiche dell'attività. Alcune parti della pipeline possono essere più impegnative dal punto di vista del calcolo rispetto ad altre e Databricks aggiunge automaticamente altri ruoli di lavoro durante queste fasi del processo e li rimuove quando non sono più necessari.

La scalabilità automatica semplifica l'ottenimento di un utilizzo elevato perché non è necessario allocare risorse di calcolo per adattarsi a un carico di lavoro. Questo vale soprattutto per i carichi di lavoro i cui requisiti cambiano nel tempo, ad esempio l'esplorazione di un set di dati durante il corso di un giorno, ma possono essere applicati anche a un carico di lavoro monouso più breve i cui requisiti di provisioning sono sconosciuti. La scalabilità automatica offre dunque due vantaggi:

I carichi di lavoro possono essere eseguiti più velocemente rispetto a una risorsa di calcolo sotto-provisionata di dimensioni costanti.
La scalabilità automatica può ridurre i costi complessivi rispetto a una risorsa di calcolo con dimensioni statiche.

A seconda delle dimensioni costanti della risorsa di calcolo e del carico di lavoro, la scalabilità automatica offre uno o entrambi questi vantaggi contemporaneamente. Le dimensioni di calcolo possono scendere al di sotto del numero minimo di lavoratori selezionati quando il provider di servizi cloud termina le istanze. In questo caso, Azure Databricks ritenta continuamente il ri-provisioning delle istanze per mantenere il numero minimo di lavoratori.

Nota

La scalabilità automatica non è disponibile per le attività spark-submit.

Nota

La scalabilità automatica del calcolo ha dei limiti quando si riduce la dimensione del cluster per carichi di lavoro di streaming strutturati. Databricks consiglia di usare le Pipeline Dichiarative Spark di Lakeflow con una scalabilità automatica avanzata per i carichi di lavoro di streaming. Vedere Ottimizzare l'utilizzo del cluster delle pipeline dichiarative di Lakeflow Spark con scalabilità automatica.

Come si comporta il ridimensionamento automatico

L'area di lavoro del piano Premium usa la scalabilità automatica ottimizzata. Le aree di lavoro del piano tariffario standard usano la scalabilità automatica standard.

La scalabilità automatica ottimizzata presenta le seguenti caratteristiche:

Aumenta da min a max in 2 passaggi.
Può ridurre le prestazioni, anche se la risorsa di calcolo non è inattiva, osservando lo stato del file shuffle.
Ridimensiona in base a una percentuale dei nodi attuali.
Nel calcolo in esecuzione, scala verso il basso se la risorsa di calcolo è stata sottoutilizzata negli ultimi 40 secondi.
Nel calcolo universale, riduce le prestazioni se la risorsa di calcolo è stata sottoutilizzata negli ultimi 150 secondi.
La proprietà di configurazione spark.databricks.aggressiveWindowDownS di Spark specifica in secondi la frequenza con cui il calcolo prende decisioni di ridimensionamento. Aumentando il valore, la risorsa di calcolo viene ridotta più lentamente. Il valore massimo è 600.

La scalabilità automatica standard viene utilizzata nelle aree di lavoro del piano standard. La scalabilità automatica presenta le seguenti caratteristiche:

Inizia aggiungendo 8 nodi. Poi aumenta in modo esponenziale, facendo tutti i passi necessari per raggiungere il massimo.
Riduce le prestazioni quando il 90% dei nodi non è occupato per 10 minuti e la risorsa di calcolo è inattiva per almeno 30 secondi.
Effettua la riduzione in modo esponenziale, a partire dal nodo 1.

Scalabilità automatica con pool

Se si collega la risorsa di calcolo a un pool, occorre tenere presente quanto segue:

Assicurarsi che le dimensioni della risorsa di calcolo richieste siano minori o uguali al numero minimo di istanze inattive nel pool. Se è maggiore, il tempo di avvio del calcolo sarà equivalente al calcolo che non usa un pool.

Assicurarsi che le dimensioni massime della risorsa di calcolo siano inferiori o uguali alla capacità massima del pool. Se è più grande, la creazione del calcolo fallirà.

Esempio di scalabilità automatica

Se si riconfigura una risorsa di calcolo statica per la scalabilità automatica, Azure Databricks ridimensiona immediatamente la risorsa di calcolo entro i limiti minimo e massimo e quindi avvia la scalabilità automatica. Ad esempio, la tabella seguente illustra cosa accade a una risorsa di calcolo con una determinata dimensione iniziale se si riconfigura la risorsa di calcolo per la scalabilità automatica tra 5 e 10 nodi.

Dimensioni iniziali	Dimensioni dopo la riconfigurazione
6	6
12	10
3	5

Impostazioni avanzate delle prestazioni

L'impostazione seguente viene visualizzata nella sezione prestazioni avanzate nell'interfaccia utente di calcolo in formato semplice.

istanze spot
terminazione automatica
Tipo di driver

istanze spot

Per risparmiare sui costi, è possibile scegliere di usare istanze spot, note anche come macchine virtuali spot di Azure selezionando la casella di controllo Istanze spot.

Configurazione spot

La prima istanza sarà sempre su richiesta (il nodo driver è sempre su richiesta) e le istanze successive saranno istanze spot.

Se le istanze vengono rimosse a causa di un'indisponibilità, Azure Databricks tenterà di acquisire nuove istanze spot per sostituire quelle rimosse. Se non è possibile acquisire istanze spot, le istanze su richiesta vengono utilizzate per sostituire le istanze sfrattate. Questo failback on-demand è supportato solo per le istanze spot completamente acquisite e attualmente attive. Le istanze spot che non funzionano durante l'installazione non vengono sostituite automaticamente.

Inoltre, quando vengono aggiunti nuovi nodi alle risorse di calcolo esistenti, Azure Databricks tenta di acquisire istanze spot per quei nodi.

Terminazione automatica

È possibile impostare la terminazione automatica per il calcolo nella sezione prestazioni avanzate. Durante la creazione della risorsa di calcolo, è possibile specificare un periodo di inattività in minuti dopo il quale si vuole che la risorsa di calcolo si arresti.

Se la differenza tra l'ora corrente e l'ultimo comando eseguito nella risorsa di calcolo è maggiore del periodo di inattività specificato, Azure Databricks termina automaticamente tale risorsa di calcolo. Per altre informazioni sulla terminazione di calcolo, vedere Terminare un calcolo.

Tipo di driver

È possibile selezionare il tipo di driver nella sezione Prestazioni Avanzate. Il nodo driver gestisce le informazioni sullo stato di tutti i notebook collegati alla risorsa di calcolo. Il nodo driver mantiene anche lo SparkContext, interpreta tutti i comandi eseguiti da un notebook o una libreria sulla risorsa di calcolo ed esegue il master di Apache Spark che si coordina con gli executor Spark.

Il valore predefinito del tipo di nodo driver corrisponde a quello del tipo di nodo di lavoro. È possibile scegliere un tipo di nodo driver più grande con maggiore memoria se si prevede di collect() a molti dati dai worker di Spark e analizzarli nel notebook.

Suggerimento

Poiché il nodo driver gestisce tutte le informazioni sullo stato dei notebook collegati, assicurarsi di scollegare i notebook inutilizzati dal nodo driver.

Etichette

I tag consentono di monitorare facilmente il costo delle risorse di calcolo usate da vari gruppi nell'organizzazione. Specificare i tag come coppie chiave-valore quando si crea il calcolo e Azure Databricks applica questi tag alle risorse cloud, ad esempio macchine virtuali e volumi del disco, nonché ai log di utilizzo di Databricks.

Per le risorse di calcolo avviate dai pool, i tag personalizzati vengono applicati solo ai report di utilizzo DBU e non vengono propagati alle risorse cloud.

Per informazioni dettagliate su come funzionano i tipi di tag di pool e di calcolo, vedere Usare tag per attribuire e monitorare l'utilizzo

Per aggiungere tag alla risorsa di calcolo:

Nella sezione Tag aggiungere una coppia chiave-valore per ogni tag personalizzato.
Fare clic su Aggiungi.

Impostazioni avanzate

Le impostazioni seguenti vengono visualizzate nella sezione avanzata dell'interfaccia utente di calcolo in formato semplice.

Modalità di accesso
Abilitare la scalabilità automatica dell'archiviazione locale
crittografia dischi locali
Configurazione di Spark
l'accesso SSH alla computazione
variabili di ambiente
Consegna dei log di calcolo

Modalità di accesso

La modalità di accesso è una funzionalità di sicurezza che determina chi può utilizzare la risorsa di calcolo e i dati a cui può accedere usando la risorsa di calcolo. Ogni risorsa di calcolo in Azure Databricks ha una modalità di accesso. Le impostazioni della modalità di accesso sono disponibili nella sezione Advanced dell'interfaccia utente di calcolo in formato semplice.

La selezione della modalità di accesso è automatico per impostazione predefinita, ovvero la modalità di accesso viene scelta automaticamente in base al runtime di Databricks selezionato. Il valore predefinito automatico è Standard , a meno che non sia selezionato un runtime di Machine Learning o un runtime di Databricks inferiore a 14.3, nel qual caso viene usato Dedicato .

Databricks consiglia di usare la modalità di accesso standard, a meno che la funzionalità richiesta non sia supportata.

Modalità di accesso	Description	Lingue supportate
Normale	Può essere usata da più utenti con isolamento dei dati tra loro.	Python, SQL, Scala
Dedicated	Può essere assegnato a e usato da un singolo utente o gruppo.	Python, SQL, Scala, R

Per informazioni dettagliate sul supporto delle funzionalità per ognuna di queste modalità di accesso, vedere Requisiti di calcolo standard e limitazioni e requisiti di calcolo dedicati e limitazioni.

Nota

In Databricks Runtime 13.3 LTS e versioni successive gli script e le librerie init sono supportati da tutte le modalità di accesso. I requisiti e i livelli di supporto variano. Vedere Dove è possibile installare gli script di inizializzazione? e le librerie a livello di calcolo.

Abilita il ridimensionamento automatico delle risorse di archiviazione locali

Spesso può essere difficile stimare la quantità di spazio su disco che un determinato processo richiederà. Per evitare di dover stimare il numero di gigabyte di disco gestito da collegare alla risorsa di calcolo in fase di creazione, Azure Databricks abilita automaticamente la scalabilità automatica dell'archiviazione locale in tutte le risorse di calcolo di Azure Databricks.

Con la scalabilità automatica dell'archiviazione locale, Azure Databricks monitora la quantità di spazio disponibile su disco nei ruoli di lavoro Spark dell'ambiente di calcolo. Se un worker inizia a esaurire lo spazio su disco, Databricks collega automaticamente un nuovo disco gestito al worker prima di esaurire lo spazio su disco. I dischi vengono collegati fino a un limite di 5 TB di spazio totale su disco per macchina virtuale (inclusa l'archiviazione locale iniziale della macchina virtuale).

I dischi gestiti collegati a una macchina virtuale vengono scollegati solo quando la macchina virtuale viene restituita ad Azure. Ovvero, i dischi gestiti non vengono mai scollegati da una macchina virtuale, purché faccia parte di una risorsa di calcolo in esecuzione. Per ridurre l'utilizzo dei dischi gestiti, Azure Databricks consiglia di usare questa funzionalità nelle risorse di calcolo configurate con scalabilità automatica o terminazione automatica.

Crittografia del disco locale

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Alcuni tipi di istanza usati per eseguire il calcolo possono avere dischi collegati in locale. Azure Databricks può archiviare dati di shuffle o dati temporanei su questi dischi localmente collegati. Per assicurarsi che tutti i dati inattivi siano crittografati per tutti i tipi di archiviazione, inclusi i dati casuali archiviati temporaneamente nei dischi locali della risorsa di calcolo, è possibile abilitare la crittografia del disco locale.

Importante

I carichi di lavoro potrebbero essere più lenti a causa dell'impatto sulle prestazioni della lettura e della scrittura di dati crittografati da e verso i volumi locali.

Quando la crittografia del disco locale è abilitata, Azure Databricks genera localmente una chiave di crittografia che è unica per ogni nodo di calcolo e viene utilizzata per crittografare tutti i dati memorizzati sui dischi locali. L'ambito della chiave è limitato a ciascun nodo di calcolo e viene eliminato definitivamente insieme al nodo di calcolo stesso. Nel corso della sua durata operativa, la chiave risiede in memoria per la crittografia e la decrittografia e viene memorizzata crittografata sul disco.

Per abilitare la crittografia del disco locale, è necessario usare l'API Clusters. Durante la creazione o la modifica del processo di calcolo, impostate enable_local_disk_encryption su true.

Configurazione di Spark

Per ottimizzare i processi Spark, è possibile fornire proprietà di configurazione Spark personalizzate.

Nella pagina di configurazione del calcolo fare clic sull'opzione Avanzato.
Fare clic sulla scheda Spark.

Nella configurazione di Spark immettere le proprietà di configurazione come una coppia chiave-valore per riga.

Quando si configura il calcolo usando l'API Clusters, impostare le proprietà Spark nel campo spark_confnell'API di creazione del cluster o nell'API del cluster di aggiornamento.

Per applicare le configurazioni Spark nel calcolo, gli amministratori dell'area di lavoro possono usare i criteri per le risorse di calcolo.

Recuperare una proprietà di configurazione Spark da una variabile segreta

Databricks consiglia di archiviare informazioni riservate, ad esempio password, in un segreto anziché in testo non crittografato. Per fare riferimento a un segreto nella configurazione di Spark, usare la seguente sintassi:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Ad esempio, per impostare una proprietà di configurazione Spark denominata password sul valore del segreto archiviato in secrets/acme_app/password:

spark.password {{secrets/acme-app/password}}

Per altre informazioni, vedere Gestire i segreti.

Accesso SSH alle risorse di calcolo

Per motivi di sicurezza, in Azure Databricks la porta SSH viene chiusa per impostazione predefinita. Per abilitare l'accesso SSH ai cluster Spark, si veda SSH per il nodo driver.

Nota

SSH può essere abilitato solo se l'area di lavoro viene distribuita nella propria rete virtuale di Azure.

Variabili di ambiente

Configurare variabili di ambiente personalizzate a cui è possibile accedere dagli script init in esecuzione nella risorsa di calcolo. Databricks fornisce anche variabili di ambiente predefinite che è possibile usare negli script init. Non è possibile eseguire l'override di queste variabili di ambiente predefinite.

Nella pagina di configurazione del calcolo fare clic sull'opzione Avanzato.
Fare clic sulla scheda Spark.
Impostare le variabili di ambiente nel campo Variabili di ambiente.

È anche possibile impostare le variabili di ambiente usando il campo spark_env_vars nell'API di creazione di un cluster o nell'API di aggiornamento del cluster.

Recapito dei log di computazione

Quando si crea un ambiente di calcolo generico o per processi, è possibile specificare un percorso per inviare i log del cluster per il nodo driver Spark, i nodi di lavoro e gli eventi. I log vengono recapitati ogni cinque minuti alla destinazione prescelta, dove vengono archiviati con cadenza oraria. Databricks fornirà tutti i log generati fino a quando la risorsa di calcolo non viene terminata.

Per configurare il percorso di recapito dei log:

Nella pagina di calcolo, fare clic sull'opzione Avanzate.
Fare clic sulla scheda Accedi.
Selezionare un tipo di destinazione.
Immettere il percorso del log.

Per archiviare i log, Databricks crea una sottocartella nel percorso di log scelto e la denomina utilizzando l'identificativo cluster_iddel calcolo.

Ad esempio, se il percorso del log specificato è /Volumes/catalog/schema/volume, i log per 06308418893214 vengono recapitati a /Volumes/catalog/schema/volume/06308418893214.

Nota

Il recapito dei log ai volumi è disponibile in anteprima pubblica ed è supportato solo sulle risorse di calcolo abilitate per Unity Catalog con modalità di accesso Standard o Dedicato. In modalità di accesso Standard verificare che il proprietario del cluster possa caricare i file nel volume. In modalità accesso dedicato verificare che l'utente o il gruppo assegnato possa caricare i file nel volume. Consulta l'operazione Creare, eliminare o aggiornare i file in Privilegi per i volumi di Unity Catalog.

Nota

Questa funzionalità è disponibile anche nell'API REST. Consulta le API Clusters.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-04

Condividi tramite

Riferimento per la configurazione di calcolo

Creare una nuova risorsa di calcolo universale

Politica di calcolo

Impostazioni delle prestazioni

Versioni di Databricks Runtime

Utilizzare l'accelerazione Photon

tipo di nodo di lavoro

Tipi di nodo flessibili

Indirizzi IP dei nodi di lavoro

Tipi di istanza GPU

Macchine virtuali di computing riservato di Azure

calcolo a nodo singolo

Proprietà del nodo singolo

Scegliere una risorsa a nodo singolo o multinodo

Abilitare la scalabilità automatica

Vantaggi della scalabilità automatica

Come si comporta il ridimensionamento automatico

Scalabilità automatica con pool

Esempio di scalabilità automatica

Impostazioni avanzate delle prestazioni

istanze spot

Terminazione automatica

Tipo di driver

Etichette

Impostazioni avanzate

Modalità di accesso

Abilita il ridimensionamento automatico delle risorse di archiviazione locali

Crittografia del disco locale

Configurazione di Spark

Recuperare una proprietà di configurazione Spark da una variabile segreta

Accesso SSH alle risorse di calcolo

Variabili di ambiente

Recapito dei log di computazione

Commenti e suggerimenti

Risorse aggiuntive