Informazioni di riferimento sulla configurazione del pool

Questo articolo descrive le impostazioni disponibili durante la creazione di un pool tramite l'interfaccia utente. Per informazioni su come usare l'interfaccia della riga di comando di Databricks per creare un pool, vedere Interfaccia della riga di comando dei pool di istanze (legacy). Per informazioni su come usare l'API REST per creare un pool, vedere l'API Pool di istanze.

Dimensioni del pool e terminazione automatica

Quando si crea un pool, per controllarne le dimensioni, è possibile impostare tre parametri: istanze inattive minime, capacità massima e terminazione automatica dell'istanza inattiva.

Istanze inattive minime

Il numero minimo di istanze in cui il pool rimane inattiva. Queste istanze non terminano, indipendentemente dalle impostazioni di terminazione automatica. Se un cluster usa istanze inattive dal pool, Azure Databricks effettua il provisioning di istanze aggiuntive per mantenere il minimo.

Capacità massima

Numero massimo di istanze di cui è possibile effettuare il provisioning. Se impostato, questo valore vincola tutte le istanze (inattivo + usato). Se un cluster che usa il pool richiede più istanze di questo numero durante la scalabilità automatica, la richiesta ha esito negativo con un INSTANCE_POOL_MAX_CAPACITY_FAILURE errore.

Questa configurazione è facoltativa. Azure Databricks consiglia di impostare un valore solo nelle circostanze seguenti:

  • Si dispone di una quota di istanza di cui è necessario rimanere sotto.
  • Si vuole proteggere un set di lavoro dall'impatto di un altro set di lavoro. Si supponga, ad esempio, che la quota dell'istanza sia 100 e che i team A e B debbano eseguire i processi. È possibile creare un pool A con un massimo di 50 e un pool B con un massimo di 50 in modo che i due team condividano equamente la quota di 100.
  • È necessario limitare il costo.

Terminazione automatica dell'istanza inattiva

Tempo in minuti superiore al valore impostato in Istanze inattive minime che le istanze possono essere inattive prima di essere terminate dal pool.

Tipi di istanza

Un pool è costituito da istanze inattive pronte per i nuovi cluster e le istanze in uso eseguendo cluster. Tutte queste istanze sono dello stesso tipo di provider di istanze, selezionate durante la creazione di un pool.

Impossibile modificare il tipo di istanza di un pool. I cluster collegati a un pool usano lo stesso tipo di istanza per i nodi driver e di lavoro. Diverse famiglie di tipi di istanza si adattano a casi d'uso diversi, ad esempio carichi di lavoro a elevato utilizzo di memoria o a elevato utilizzo di calcolo.

Azure Databricks fornisce sempre un avviso di deprecazione di un anno prima del supporto per il ceasing per un tipo di istanza.

Nota

Se i requisiti di sicurezza includono l'isolamento del calcolo, selezionare un'istanza Standard_F72s_V2 come tipo di lavoro. Questi tipi di istanza rappresentano macchine virtuali isolate che usano l'intero host fisico e forniscono il livello di isolamento necessario per supportare, ad esempio, i carichi di lavoro del Dipartimento della Difesa statunitense del livello di impatto 5 (IL5).

Versione di Databricks Runtime precaricata

È possibile velocizzare l'avvio del cluster selezionando una versione di Databricks Runtime da caricare nelle istanze inattive nel pool. Se un utente seleziona tale runtime quando crea un cluster supportato dal pool, il cluster verrà avviato ancora più rapidamente rispetto a un cluster supportato dal pool che non usa una versione di Databricks Runtime precaricata.

Se si imposta questa opzione su Nessuno , l'avvio del cluster viene rallentato, perché la versione di Databricks Runtime viene scaricata su richiesta per le istanze inattive nel pool. Quando il cluster rilascia le istanze nel pool, la versione di Databricks Runtime rimane memorizzata nella cache in tali istanze. L'operazione di creazione del cluster successiva che usa la stessa versione di Databricks Runtime potrebbe trarre vantaggio da questo comportamento di memorizzazione nella cache, ma non è garantito.

Immagine Docker precaricata

Le immagini Docker sono supportate con i pool se si usa l'API Pool di istanze per creare il pool.

Tag del pool

I tag del pool consentono di monitorare facilmente il costo delle risorse cloud usate da vari gruppi nell'organizzazione. È possibile specificare tag come coppie chiave-valore quando si crea un pool e Azure Databricks applica questi tag alle risorse cloud, ad esempio macchine virtuali e volumi di dischi, nonché report di utilizzo DBU.

Per praticità, Azure Databricks applica tre tag predefiniti a ogni pool: Vendor, DatabricksInstancePoolIde DatabricksInstancePoolCreatorId. È anche possibile aggiungere tag personalizzati quando si crea un pool. È possibile aggiungere fino a 41 tag personalizzati.

Tag personalizzati

Per aggiungere altri tag al pool, passare alla scheda Schede nella parte inferiore della pagina Crea pool . Fare clic sul pulsante + Aggiungi , quindi immettere la coppia chiave-valore.

I cluster supportati dal pool ereditano i tag predefiniti e personalizzati dalla configurazione del pool. Per informazioni dettagliate sul modo in cui interagiscono i tag del pool e i tag del cluster, vedere Monitorare l'uso dei tag.

Scalabilità automatica dell'archiviazione locale

Spesso può essere difficile stimare la quantità di spazio su disco che un determinato processo richiederà. Per evitare di dover stimare il numero di gigabyte di disco gestito da collegare al pool in fase di creazione, Azure Databricks abilita automaticamente la scalabilità automatica dell'archiviazione locale in tutti i pool di Azure Databricks.

Con la scalabilità automatica dell'archiviazione locale, Azure Databricks monitora la quantità di spazio disponibile su disco nelle istanze del pool. Se un'istanza è troppo bassa su disco, un nuovo disco gestito viene collegato automaticamente prima che esaurisca lo spazio su disco. I dischi vengono collegati fino a un limite di 5 TB di spazio totale su disco per macchina virtuale (inclusa l'archiviazione locale iniziale della macchina virtuale).

I dischi gestiti collegati a una macchina virtuale vengono scollegati solo quando la macchina virtuale viene restituita ad Azure. Ovvero, i dischi gestiti non vengono mai scollegati da una macchina virtuale, purché faccia parte di un pool.

Istanze spot

Per risparmiare sui costi, è possibile scegliere di usare istanze spot selezionando il pulsante di opzione Tutti spot .

I cluster nel pool verranno avviate con istanze spot per tutti i nodi, il driver e il ruolo di lavoro (anziché i ruoli di lavoro ibridi su richiesta e istanze spot per i cluster non del pool).

Se le istanze spot vengono rimosse a causa di un'indisponibilità, le istanze su richiesta non sostituiscono le istanze rimosse.