Componenti di Azure Databricks

2025-06-18

Questo articolo presenta i componenti fondamentali che è necessario comprendere per usare Azure Databricks in modo efficace.

Account e aree di lavoro

In Azure Databricks un'area di lavoro è una distribuzione di Azure Databricks nel cloud che funge da ambiente per consentire al team di accedere agli asset di Databricks. L'organizzazione può scegliere di avere più aree di lavoro o solo una, a seconda delle esigenze.

Un account Azure Databricks rappresenta una singola entità che può includere più aree di lavoro. Gli account abilitati per Unity Catalog possono essere usati per gestire gli utenti e l'accesso ai dati in modo centralizzato in tutte le aree di lavoro nell'account.

Fatturazione: unità Databricks (DBU)

Azure Databricks fattura in base alle unità di Databricks (DBU), cioè unità di funzionalità di elaborazione calcolate all'ora in base al tipo di istanza di macchina virtuale.

Vedere la pagina dei prezzi di Azure Databricks.

Autenticazione e autorizzazione

Questa sezione descrive i concetti che è necessario conoscere quando si gestiscono le identità di Azure Databricks e il relativo accesso agli asset di Azure Databricks.

Utente

Una persona univoca che ha accesso al sistema. Le identità utente sono rappresentate dagli indirizzi di posta elettronica. Vedere Gestire gli utenti.

Principal di servizio

Un’identità del servizio da usare con processi, strumenti automatizzati e sistemi quali script, app e piattaforme CI/CD. Le entità servizio sono rappresentate da un ID di applicazione. Vedi Principali del servizio.

Gruppo

Una raccolta di identità. I gruppi semplificano la gestione delle identità, rendendo più facile l'assegnazione dell'accesso a aree di lavoro, dati e altri oggetti a protezione diretta. Tutte le identità di Databricks possono essere assegnate come membri di gruppi. Vedere Gruppi.

Elenco di controllo di accesso (ACL)

Elenco di autorizzazioni associate all'area di lavoro, al cluster, al processo, alla tabella o all'esperimento. Un elenco di controllo di accesso specifica gli utenti o i processi di sistema a cui viene concesso l'accesso agli oggetti, nonché le operazioni consentite per gli asset. Ogni voce in un ACL tipico specifica un soggetto e un'operazione. Vedere Elenchi di controllo di accesso.

Token di accesso personale

Un token di accesso personale è una stringa usata per autenticare le chiamate API REST, le connessioni dei partner tecnologici e altri strumenti. Vedere Autenticazione del token di accesso personale di Azure Databricks.

I token di Microsoft Entra ID possono essere usati anche per eseguire l'autenticazione all'API REST.

Interfacce di Azure Databricks

Questa sezione descrive le interfacce per l'accesso agli asset in Azure Databricks.

INTERFACCIA UTENTE

L'interfaccia utente di Azure Databricks è un'interfaccia grafica per interagire con le funzionalità, ad esempio le cartelle dell'area di lavoro e i relativi oggetti contenuti, oggetti dati e risorse di calcolo.

REST API (Interfaccia di Programmazione delle Applicazioni REST)

L'API REST di Databricks fornisce endpoint per la modifica o la richiesta di informazioni sugli oggetti dell'account e dell'area di lavoro di Azure Databricks. Consulta il riferimento account e il riferimento spazio di lavoro.

API REST di SQL

L'API REST di SQL consente di automatizzare le attività sugli oggetti SQL. Vedere API SQL.

Interfaccia a riga di comando (CLI)

L'interfaccia della riga di comando di Databricks è ospitata in GitHub. L'interfaccia della riga di comando si basa sull'API REST di Databricks.

Gestione dei dati

Questa sezione descrive gli strumenti e gli oggetti logici usati per organizzare e gestire i dati in Azure Databricks. Vedere Oggetti di database in Azure Databricks.

Catalogo Unity

Unity Catalog è una soluzione di governance unificata per i dati e le risorse di intelligenza artificiale su Azure Databricks, che fornisce funzionalità centralizzate di controllo dell'accesso, auditing, tracciabilità e scoperta dei dati nelle aree di lavoro di Databricks. Vedere Che cos'è il catalogo unity?.

Catalogo

I cataloghi sono il contenitore di livello più alto per organizzare e isolare i dati in Azure Databricks. È possibile condividere cataloghi tra aree di lavoro all'interno della stessa area e dello stesso account. Consulta che cosa sono i cataloghi in Azure Databricks?.

Diagramma

Gli schemi, noti anche come database, sono contenuti all'interno dei cataloghi e forniscono un livello di organizzazione più granulare. Contengono oggetti di database e asset di intelligenza artificiale, ad esempio volumi, tabelle, funzioni e modelli. Vedere Che cosa sono gli schemi in Azure Databricks?.

Tavolo

Le tabelle organizzano e regolano l'accesso ai dati strutturati. È possibile eseguire query sulle tabelle con Apache Spark SQL e le API di Apache Spark. Vedere Introduzione alle tabelle di Azure Databricks.

Visualizza

Una vista è un oggetto di sola lettura derivato da una o più tabelle e viste. Le visualizzazioni salvano le query definite sulle tabelle. Consulta Che cos'è una visualizzazione?.

Volume

I volumi rappresentano un volume logico di archiviazione in un percorso di archiviazione di oggetti cloud e organizzano e regolano l'accesso ai dati non tabulari. Databricks consiglia di usare volumi per la gestione di tutti gli accessi a dati non tabulari nell'archiviazione di oggetti cloud. Vedere Che cosa sono i volumi del catalogo Unity?.

Tabella Delta

Per impostazione predefinita, tutte le tabelle create in Azure Databricks sono tabelle Delta. Le tabelle Delta si basano sul progetto open source Delta Lake, un framework per l'archiviazione tabelle ACID ad alte prestazioni negli archivi di oggetti cloud. Una tabella Delta archivia i dati come directory di file nell'archivio oggetti cloud e registra i metadati della tabella nel metastore all'interno di un catalogo e di uno schema.

Scopri di più sulle tecnologie brandate come Delta.

Metastore

Unity Catalog fornisce un metastore a livello di account che registra i metadati relativi a dati, intelligenza artificiale e autorizzazioni su cataloghi, schemi e tabelle. Vedere Metastore.

Azure Databricks offre un metastore Hive legacy per i clienti che non hanno adottato Unity Catalog. Vedere Controllo di accesso alle tabelle metastore Hive (legacy).

Esploratore del Catalogo

"Catalog Explorer consente di esplorare e gestire i dati e le risorse di intelligenza artificiale, inclusi schemi (database), tabelle, modelli, volumi (dati non tabulari), funzioni e modelli di Machine Learning registrati." È possibile usarlo per trovare oggetti dati e proprietari, comprendere le relazioni tra i dati tra tabelle e gestire autorizzazioni e condivisione. Vedere Che cos'è Catalog Explorer?.

Radice DBFS

Importante

L'archiviazione e l'accesso ai dati tramite la radice DBFS root o i montaggi DBFS è un modello deprecato e non consigliato da Databricks. Databricks consiglia invece di usare Unity Catalog per gestire l'accesso a tutti i dati. Vedere Che cos'è il catalogo unity?.

Per impostazione predefinita, la radice DBFS è un percorso di archiviazione disponibile per tutti gli utenti. Vedere Che cos'è DBFS?.

Gestione dei calcoli

Questa sezione descrive i concetti che è necessario conoscere per eseguire i calcoli in Azure Databricks.

Raggruppamento

Set di risorse di calcolo e configurazioni in cui si eseguono notebook e processi. Esistono due tipi di cluster: multiuso e di lavoro. Vedere Calcolo.

Si crea un cluster generico utilizzando l'interfaccia utente, la riga di comando o l'API REST. È possibile terminare e riavviare manualmente un cluster multifunzionale. Più utenti possono condividere cluster di questo tipo per eseguire un'analisi interattiva in modo collaborativo.
L'utilità di pianificazione del processo di Azure Databricks crea un cluster di processi quando si esegue un processo in un nuovo cluster di processo e termina il cluster al termine del processo. Non è possibile riavviare un cluster di processi.

Piscina

Set di istanze pronte all'uso e inattive, che consentono la riduzione dei tempi di avvio e di ridimensionamento automatico del cluster. Quando è collegato a un pool, un cluster preleva i nodi driver e i nodi di lavoro dal pool. Vedere Informazioni di riferimento sulla configurazione del pool.

Se il pool non dispone di risorse inattive sufficienti per soddisfare la richiesta del cluster, il pool si espande allocando nuove istanze dal provider di istanze. Quando un cluster collegato viene terminato, le istanze usate vengono restituite al pool e possono essere riutilizzate da un cluster diverso.

Ambiente di Esecuzione Databricks

Set di componenti di base eseguiti nei cluster gestiti da Azure Databricks. Vedere Calcolo. Azure Databricks include i runtime seguenti:

Databricks Runtime include Apache Spark, ma aggiunge anche numerosi componenti e aggiornamenti che migliorano notevolmente l'usabilità, le prestazioni e la sicurezza dell'analisi dei Big Data.
Databricks Runtime per Machine Learning è basato su Databricks Runtime e fornisce un'infrastruttura di Machine Learning predefinita integrata con tutte le funzionalità dell'area di lavoro di Azure Databricks. Il runtime contiene più librerie di ampia diffusione, tra cui TensorFlow, Keras, PyTorch e XGBoost.

Interfaccia utente attività e pipeline

L'interfaccia utente dell'area di lavoro Jobs & Pipelines fornisce accesso ai Processi, alle Pipeline dichiarative di Lakeflow e alle interfacce utente di Lakeflow Connect, che consentono di orchestrare e pianificare flussi di lavoro.

Lavori

Un meccanismo non interattivo per orchestrare e pianificare notebook, librerie e altre attività. Visualizza Lakeflow Jobs

Pipeline

Le pipeline dichiarative di Lakeflow offrono un framework dichiarativo per la creazione di pipeline di elaborazione dati affidabili, gestibili e testabili. Vedere Pipeline dichiarative di Lakeflow.

Carico di lavoro

Il carico di lavoro è la quantità di funzionalità di elaborazione necessaria per eseguire un'attività o un gruppo di attività. Azure Databricks identifica due tipi di carichi di lavoro: ingegneria dei dati (processo) e analisi dei dati (multifunzionale).

Ingegneria dei dati Un carico di lavoro (automatizzato) viene eseguito in un cluster di processi creato dall'utilità di pianificazione del processo di Azure Databricks per ogni carico di lavoro.
Analisi dei dati Un carico di lavoro (interattivo) viene eseguito in un cluster all-purpose. I carichi di lavoro interattivi in genere eseguono comandi all'interno di un notebook di Azure Databricks. Tuttavia, l'esecuzione di un processo in un cluster all-purpose esistente viene considerata anche come un carico di lavoro interattivo.

Contesto di esecuzione

Lo stato di un ciclo Read–Eval–Print (REPL) per ogni linguaggio di programmazione supportato. Python, R, Scala e SQL sono gli unici linguaggi supportati.

Ingegneria dei dati

Gli strumenti di ingegneria dei dati facilitano la collaborazione tra data scientist, data engineer, analisti dei dati e ingegneri di Machine Learning.

Area di lavoro

Un'area di lavoro è un ambiente per l'accesso a tutti gli asset di Azure Databricks. Un'area di lavoro organizza gli oggetti (notebook, librerie, dashboard e esperimenti) in cartelle e fornisce l'accesso agli oggetti dati e alle risorse di calcolo.

Taccuino

Un’interfaccia basata sul Web per la creazione di flussi di lavoro di data science e machine learning che possono contenere comandi eseguibili, visualizzazioni e testo narrativo. Vedere Notebook di Databricks.

Biblioteca

Un pacchetto di codice disponibile per il notebook o il processo in esecuzione nel cluster. I runtime di Databricks includono molte librerie ed è anche possibile caricarne di personalizzati. Vedere Installare le librerie.

Cartella Git (in precedenza Repos)

Cartella il cui contenuto viene co-versionato insieme, sincronizzandone il contenuto con un repository Git remoto. Le cartelle Git di Databricks si integrano con Git per fornire il controllo del codice sorgente e della versione per i progetti.

IA e Machine Learning

Databricks offre un ambiente end-to-end integrato con servizi gestiti per lo sviluppo e la distribuzione di applicazioni di intelligenza artificiale e Machine Learning.

Mosaico di intelligenza artificiale

Il nome del marchio per prodotti e servizi di Databricks Mosaic AI Research, un team di ricercatori e ingegneri responsabili delle principali innovazioni di Databricks nell'intelligenza artificiale generativa. I prodotti di Mosaic AI includono le funzionalità di Machine Learning e intelligenza artificiale in Databricks. Vedi Ricerca Mosaico.

Ambiente di runtime per l'apprendimento automatico

Per semplificare lo sviluppo di modelli di Machine Learning e IA, Databricks offre un runtime di Databricks per Machine Learning, che automatizza la creazione di calcolo con l'infrastruttura di Machine Learning e Deep Learning predefinita, incluse le librerie ML e DL più comuni. Include anche il supporto predefinito della GPU, inclusi i driver e le librerie di supporto. Accedere alle informazioni sulle versioni di runtime più recenti dalle note di rilascio e compatibilità delle versioni di Databricks Runtime.

Esperimento

Raccolta di esecuzioni MLflow per l'addestramento di un modello di machine learning. Vedi Organizzare le esecuzioni di training con esperimenti MLflow.

Funzionalità

Le funzionalità sono un componente importante dei modelli di Machine Learning. Un archivio delle funzionalità consente la condivisione e l'individuazione delle funzionalità nell'organizzazione e garantisce anche che lo stesso codice di calcolo delle funzionalità venga usato per il training e l'inferenza del modello. Vedere Gestione delle funzionalità.

Modelli di IA generativa

Databricks supporta l'esplorazione, lo sviluppo e la distribuzione di modelli di IA generativa, tra cui:

AI playground, un ambiente simile a una chat nell'area di lavoro in cui è possibile testare, fornire input a e confrontare grandi modelli linguistici. Vedi Chat con LLM e prototipa applicazioni di IA generativa con AI Playground.
Set di modelli di base preconfigurati integrato su cui è possibile eseguire query:
- Vedere Api del modello di base con pagamento per token.
- Vedere [Consigliato] Distribuire modelli di base da Unity Catalog per i modelli di base che è possibile usare con un solo clic.
LLMs ospitati da terze parti, denominati modelli esterni. Questi modelli devono essere usati così come sono.
Funzionalità per personalizzare un modello di base per ottimizzare le prestazioni per l'applicazione specifica (spesso detta ottimizzazione). Vedere Ottimizzazione del modello di base.

Registro dei modelli

Databricks offre una versione ospitata di MLflow Model Registry nel Unity Catalog. I modelli registrati in Unity Catalog ereditano il controllo di accesso centralizzato, la tracciabilità e l'individuazione e l'accesso tra diversi spazi di lavoro. Vedere Gestire il ciclo di vita del modello nel catalogo unity.

Servizio di modelli

Mosaic AI Model Serving offre un'interfaccia unificata per implementare, gestire ed eseguire query sui modelli di IA. Ogni modello usato è disponibile come API REST che è possibile integrare nell'applicazione Web o client. Con Mosaic AI Model Serving è possibile distribuire modelli, modelli di base o modelli di terze parti ospitati all'esterno di Databricks. Vedere Distribuire modelli con Mosaic AI Model Serving.

Archiviazione dei dati

Il data warehousing si riferisce alla raccolta e all'archiviazione di dati da più origini, in modo che sia possibile accedervi rapidamente per informazioni dettagliate e report aziendali. Databricks SQL è la raccolta di servizi che offrono funzionalità di data warehousing e prestazioni ai data lake esistenti. Vedere Che cos'è il data warehousing in Azure Databricks?.

Interrogazione

Una query è un'istruzione SQL valida che consente di interagire con i dati. È possibile creare query usando l'editor SQL della piattaforma o connettersi usando un connettore SQL, un driver o un'API. Per altre informazioni su come usare le query, vedere Accedere e gestire le query salvate .

Magazzino SQL

Risorsa di calcolo in cui si eseguono query SQL. Esistono tre tipi di warehouse SQL: classico, pro e serverless. Azure Databricks consiglia di usare spazi di archiviazione serverless, se disponibili. Vedere Tipi di sql warehouse per confrontare le funzionalità disponibili per ogni tipo di warehouse.

Cronologia delle query

Elenco delle query eseguite e delle relative caratteristiche di prestazioni. La cronologia delle query consente di monitorare le prestazioni delle interrogazioni, aiutando a identificare i colli di bottiglia e ottimizzare i tempi di esecuzione delle interrogazioni. Consulta Cronologia query.

Visualizzazione

Presentazione grafica del risultato dell'esecuzione di una query. Vedere Visualizzazioni nei notebook di Databricks e nell'editor SQL.

Pannello di controllo

Una presentazione di visualizzazioni e commenti dei dati. È possibile usare i dashboard per inviare automaticamente report a chiunque nell'account Azure Databricks. Usare Databricks Assistant per creare visualizzazioni basate su prompt del linguaggio naturale. Vedere Dashboard. È anche possibile creare un dashboard da un notebook. Vedere Dashboard nei notebook.

Per i cruscotti vecchi, vedere Cruscotti vecchi.