Guida di riferimento per la configurazione di Pool
Questo articolo descrive le impostazioni disponibili durante la creazione di un pool tramite l'interfaccia utente. Per informazioni su come usare la CLI di Databricks per creare un pool, vedere Comandi della CLI di Databricks. Per informazioni su come usare l'API REST per creare un pool, si veda l'API Pool di istanze.
Nota
Se il carico di lavoro supporta il calcolo serverless, Databricks consiglia di usare il calcolo serverless anziché i pool per sfruttare il calcolo sempre attivo e scalabile. Si veda Connettersi al calcolo serverless.
Dimensioni del pool
Quando si crea un pool, per controllarne le dimensioni, è possibile impostare tre parametri: istanze inattive minime, capacità massima e terminazione automatica dell'istanza inattiva.
Istanze minime inattive
Il numero minimo di istanze che il pool mantiene inattivo. Queste istanze non vengono terminate, indipendentemente dalle impostazioni di terminazione automatica. Se un cluster usa istanze inattive dal pool, Azure Databricks effettua il provisioning di istanze aggiuntive per mantenere il minimo.
Capacità massima
Il numero massimo di istanze che il pool può fornire. Se impostato, questo valore vincola tutte le istanze (inattivo + usato). Se un cluster che usa il pool richiede più istanze di questo numero durante la scalabilità automatica, la richiesta ha esito negativo con un erroreINSTANCE_POOL_MAX_CAPACITY_FAILURE
.
Questa configurazione è facoltativa. Azure Databricks consiglia di impostare un valore solo nelle seguenti circostanze:
- Si dispone di una quota di istanza di cui è necessario rimanere sotto.
- Si vuole proteggere un set di lavoro dall'impatto di un altro set di lavoro. Si supponga, ad esempio, che la quota dell'istanza sia 100 e che i team A e B debbano eseguire i processi. È possibile creare un pool A con un massimo di 50 e un pool B con un massimo di 50 in modo che i due team condividano equamente la quota di 100.
- È necessario limitare il costo.
Terminazione automatica dell'istanza inattiva
Tempo in minuti superiore al valore impostato in Istanze inattive minime che le istanze possono essere inattive prima di essere terminate dal pool.
Tipi di istanza
Un pool è costituito da istanze inattive pronte per i nuovi cluster e le istanze in uso eseguendo cluster. Tutte queste istanze sono dello stesso tipo di provider di istanze, selezionate durante la creazione di un pool.
Impossibile modificare il tipo di istanza di un pool. I cluster collegati a un pool usano lo stesso tipo di istanza per i nodi driver e di lavoro. Diverse famiglie di tipi di istanza si adattano a casi d'uso diversi, ad esempio carichi di lavoro a elevato utilizzo di memoria o a elevato utilizzo di calcolo.
Azure Databricks fornisce sempre un anno di preavviso di deprecazione prima di cessare il supporto per un tipo di istanza.
Nota
Se i requisiti di sicurezza includono l'isolamento dell’ambiente di calcolo, selezionare un'istanza Standard_F72s_V2 come tipo di lavoro. Questi tipi di istanza rappresentano macchine virtuali isolate che consumano l'intero host fisico e forniscono il livello di isolamento necessario per supportare, ad esempio, i carichi di lavoro del Dipartimento della Difesa degli Stati Uniti di livello di impatto 5 (IL5).
Versione di Databricks Runtime precaricata
È possibile velocizzare l'avvio del cluster selezionando una versione di Databricks Runtime da caricare nelle istanze inattive nel pool. Se un utente seleziona tale runtime quando crea un cluster supportato dal pool, il cluster verrà avviato ancora più rapidamente rispetto a un cluster supportato dal pool che non usa una versione di Databricks Runtime precaricata.
Se si imposta questa opzione su Nessuno, l'avvio del cluster viene rallentato, perché la versione di Databricks Runtime viene scaricata su richiesta per le istanze inattive nel pool. Quando il cluster rilascia le istanze nel pool, la versione di Databricks Runtime rimane memorizzata nella cache in tali istanze. L'operazione di creazione del cluster successiva che usa la stessa versione di Databricks Runtime potrebbe trarre vantaggio da questo comportamento di memorizzazione nella cache, ma non è garantito.
Immagine Docker precaricata
Le immagini Docker sono supportate con i pool se si usa l'API Pool di istanze per creare il pool.
Tag del pool
I tag del pool consentono di monitorare facilmente il costo delle risorse cloud usate da vari gruppi nell'organizzazione. È possibile specificare tag come coppie chiave-valore quando si crea un pool e Azure Databricks applica questi tag alle risorse cloud, ad esempio macchine virtuali e volumi di dischi, nonché report di utilizzo DBU.
Per praticità, Azure Databricks applica tre tag predefiniti a ogni pool: Vendor
, DatabricksInstancePoolId
e DatabricksInstancePoolCreatorId
. È anche possibile aggiungere tag personalizzati quando si crea un pool. È possibile aggiungere fino a 41 tag personalizzati.
Tag personalizzati
Per aggiungere altri tag al pool, passare alla scheda Schede nella parte inferiore della pagina Crea pool. Fare clic sul pulsante + Aggiungi, poi immettere la coppia chiave-valore.
I cluster supportati dal pool ereditano i tag predefiniti e personalizzati dalla configurazione del pool. Per informazioni dettagliate sul modo in cui interagiscono i tag del pool e i tag del cluster, si veda Monitorare l'uso dei tag.
Ridimensionamento automatico delle risorse di archiviazione locali
Spesso può essere difficile stimare la quantità di spazio su disco che un determinato processo richiederà. Per evitare di dover stimare il numero di gigabyte di disco gestito da collegare al pool in fase di creazione, Azure Databricks abilita automaticamente la scalabilità automatica dell'archiviazione locale in tutti i pool di Azure Databricks.
Con la scalabilità automatica dell'archiviazione locale, Azure Databricks monitora la quantità di spazio disponibile su disco nelle istanze del pool. Se un'istanza è troppo bassa su disco, un nuovo disco gestito viene collegato automaticamente prima che esaurisca lo spazio su disco. I dischi vengono collegati fino a un limite di 5 TB di spazio totale su disco per macchina virtuale (inclusa l'archiviazione locale iniziale della macchina virtuale).
I dischi gestiti collegati a una macchina virtuale vengono scollegati solo quando la macchina virtuale viene restituita ad Azure. Ovvero, i dischi gestiti non vengono mai scollegati da una macchina virtuale, purché faccia parte di un pool.
Istanze Spot
Per risparmiare sui costi, è possibile scegliere di usare istanze spot selezionando il pulsante di opzione Tutti spot.
I cluster nel pool verranno avviate con istanze spot per tutti i nodi, il driver e il ruolo di lavoro (anziché i ruoli di lavoro ibridi su richiesta e istanze spot per i cluster non del pool).
Se le istanze spot vengono rimosse a causa di un'indisponibilità, le istanze su richiesta non sostituiscono le istanze rimosse.