Creare un cluster Spark

Completato

È possibile creare uno o più cluster nell'area di lavoro di Azure Databricks usando l'interfaccia utente dell'area di lavoro di Azure Databricks.

Screenshot dell'interfaccia Crea cluster nell'interfaccia dell'area di lavoro di Azure Databricks.

Quando si crea il cluster, è possibile specificare le impostazioni di configurazione, tra cui:

  • Nome del cluster.
  • La modalità cluster, che può essere:
    • Standard: adatto per carichi di lavoro a utente singolo che richiedono più nodi di lavoro.
    • Concorrenza elevata: adatta per carichi di lavoro in cui più utenti usano il cluster contemporaneamente.
    • Nodo singolo: adatto per carichi di lavoro di piccole dimensioni o test, in cui è necessario un solo nodo di lavoro.
  • Versione del runtime di Databricks da usare nel cluster; che determina la versione di Spark e i singoli componenti, ad esempio Python, Scala e altri che vengono installati.
  • Tipo di macchina virtuale (VM) usata per i nodi di lavoro nel cluster.
  • Numero minimo e massimo di nodi di lavoro nel cluster.
  • Tipo di macchina virtuale usata per il nodo driver nel cluster.
  • Indica se il cluster supporta la scalabilità automatica per ridimensionare dinamicamente il cluster.
  • Per quanto tempo il cluster può rimanere inattivo prima di essere arrestato automaticamente.

Come Azure gestisce le risorse del cluster

Quando si crea un'area di lavoro di Azure Databricks, un'appliance Databricks viene distribuita come risorsa di Azure nella sottoscrizione. Quando si crea un cluster nell'area di lavoro, si specificano i tipi e le dimensioni delle macchine virtuali da usare sia per i nodi driver che per i nodi di lavoro e altre opzioni di configurazione, ma Azure Databricks gestisce tutti gli altri aspetti del cluster.

L'appliance Databricks viene distribuita in Azure come gruppo di risorse gestite all'interno della sottoscrizione. Questo gruppo di risorse contiene le macchine virtuali driver e di lavoro per i cluster, insieme ad altre risorse necessarie, tra cui una rete virtuale, un gruppo di sicurezza e un account di archiviazione. Tutti i metadati per il cluster, ad esempio i processi pianificati, vengono archiviati in un database di Azure con replica geografica per la tolleranza di errore.

Azure Databricks è suddiviso in due piani principali: il piano di controllo, costituito da servizi back-end (ad esempio, l'interfaccia utente Web) gestiti da Microsoft e dal piano di calcolo, in cui vengono eseguiti i carichi di lavoro dei dati. Esistono due varianti di calcolo: calcolo classico, che usa la propria sottoscrizione di Azure e la rete virtuale (che offre isolamento all'interno della sottoscrizione) e calcolo serverless, che viene eseguito nell'ambiente gestito di Databricks, ma ancora nella stessa area di Azure dell'area di lavoro, con controlli di rete e sicurezza per isolare tra i clienti. Ogni area di lavoro ha un account di archiviazione nella sottoscrizione che contiene i dati di sistema (notebook, log, metadati del processo), il file system distribuito (DBFS) e gli asset di catalogo (se è abilitato Unity Catalog), con controlli aggiuntivi per la rete, il firewall e l'accesso per garantire la sicurezza e l'isolamento appropriato.

Diagramma dell'architettura di Azure Databricks.

Annotazioni

È anche possibile collegare il cluster a un pool di nodi inattivi per ridurre il tempo di avvio del cluster. Per altre informazioni, vedere Pool nella documentazione di Azure Databricks.