Panoramica dell'architettura di Azure Databricks
Questo articolo offre una panoramica generale dell'architettura di Azure Databricks, inclusa l'architettura aziendale, in combinazione con Azure.
Architettura generale
Azure Databricks opera da un piano di controllo e da un piano di calcolo.
- Il piano di controllo include i servizi back-end gestiti da Azure Databricks nell'account Azure Databricks. L'applicazione Web si trova nel piano di controllo.
- Il piano di calcolo è il percorso in cui vengono elaborati i dati. Esistono due tipi di piani di calcolo a seconda del calcolo in uso.
- Per il calcolo serverless, le risorse di calcolo serverless vengono eseguite in un piano di calcolo serverless nell'account Azure Databricks.
- Per le risorse di calcolo classiche di Azure Databricks, le risorse di calcolo si trovano nella sottoscrizione di Azure nel cosiddetto piano di calcolo classico. Questo si riferisce alla rete nella sottoscrizione di Azure e alle relative risorse.
Ogni area di lavoro di Azure Databricks ha un account di archiviazione associato noto come account di archiviazione dell'area di lavoro. L'account di archiviazione dell'area di lavoro si trova nella sottoscrizione di Azure.
Il diagramma seguente descrive l'architettura complessiva di Azure Databricks.
Piano di calcolo serverless
Nel piano di calcolo serverless le risorse di calcolo di Azure Databricks vengono eseguite in un livello di calcolo all'interno dell'account Azure Databricks. Azure Databricks crea un piano di calcolo serverless nella stessa area di Azure del piano di calcolo classico dell'area di lavoro.
Per proteggere i dati dei clienti all'interno del piano di calcolo serverless, il calcolo serverless viene eseguito entro un limite di rete per l'area di lavoro, con vari livelli di sicurezza per isolare aree di lavoro dei clienti di Azure Databricks diverse e controlli di rete aggiuntivi tra cluster dello stesso cliente.
Per altre informazioni sulla rete nel piano di calcolo serverless, rete del piano di calcolo serverless.
Piano di calcolo classico
Nel piano di calcolo classico le risorse di calcolo di Azure Databricks vengono eseguite nella sottoscrizione di Azure. Le nuove risorse di calcolo vengono create all'interno della rete virtuale di ogni area di lavoro nella sottoscrizione di Azure del cliente.
Un piano di calcolo classico ha un isolamento naturale perché viene eseguito nella sottoscrizione di Azure di ogni cliente. Per altre informazioni sulla rete nel piano di calcolo classico, vedere Rete del piano di calcolo classico.
Per il supporto a livello di area, vedere Aree di Azure Databricks.
Account di archiviazione dell'area di lavoro
Quando si crea un'area di lavoro, Azure Databricks crea un account nella sottoscrizione di Azure da usare come account di archiviazione dell'area di lavoro.
L'account di archiviazione dell'area di lavoro contiene:
- Dati di sistema dell'area di lavoro: i dati di sistema dell'area di lavoro vengono generati quando si usano varie funzionalità di Azure Databricks, ad esempio la creazione di notebook. Questo bucket include revisioni del notebook, dettagli dell'esecuzione del processo, risultati dei comandi e log di Spark
- DBFS: DBFS (Databricks File System) è un file system distribuito in ambienti Azure Databricks accessibili nello spazio dei
dbfs:/
nomi. I montaggi DBFS radice e DBFS si trovano entrambi nello spazio deidbfs:/
nomi . L'archiviazione e l'accesso ai dati tramite i montaggi DBFS radice o DBFS è un modello deprecato e non consigliato da Databricks. Per altre informazioni, vedere Che cos'è DBFS?. - Catalogo delle aree di lavoro di Unity Catalog: se l'area di lavoro è stata abilitata automaticamente per Unity Catalog, l'account di archiviazione dell'area di lavoro contiene il catalogo dell'area di lavoro predefinito. Tutti gli utenti dell'area di lavoro possono creare asset nello schema predefinito in questo catalogo. Vedere Configurare e gestire il catalogo Unity.
Per limitare l'accesso all'account di archiviazione dell'area di lavoro solo da risorse e reti autorizzate, vedere Abilitare il supporto del firewall per l'account di archiviazione dell'area di lavoro.