Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
I volumi sono oggetti del catalogo Unity che consentono la governance su set di dati non tabulari. I volumi rappresentano un volume logico di archiviazione in una posizione di archiviazione di oggetti cloud. I volumi offrono funzionalità per l'accesso, l'archiviazione, la governance e l'organizzazione dei file.
Mentre le tabelle forniscono la governance sui set di dati tabulari, i volumi aggiungono governance su set di dati non tabulari. È possibile usare volumi per archiviare e accedere ai file in qualsiasi formato, inclusi dati strutturati, semistrutturati e non strutturati.
Casi d'uso per i volumi
Databricks consiglia di usare volumi per gestire l'accesso a tutti i dati non tabulari. Come le tabelle, i volumi possono essere gestiti o esterni.
I casi d'uso per i volumi includono:
- Registrare le aree di destinazione per i dati non elaborati prodotti da sistemi esterni per supportare l'elaborazione nelle prime fasi delle pipeline ETL e di altre attività di ingegneria dei dati.
- Registrare i percorsi di staging per l'inserimento, ad esempio usando istruzioni Auto Loader,
COPY INTO
o CTAS (CREATE TABLE AS
). - Fornire percorsi di archiviazione file per data scientist, analisti dei dati e ingegneri di Machine Learning da usare come parti dell'analisi esplorativa dei dati e di altre attività di data science.
- Concedere agli utenti di Azure Databricks l'accesso a file arbitrari prodotti e memorizzati nell'archiviazione cloud da altri sistemi, ad esempio grandi raccolte di dati non strutturati (ad esempio file immagine, audio, video e PDF) acquisiti da sistemi di sorveglianza o dispositivi IoT o file di libreria (file con rotellina JAR e Python) esportati da pipeline di gestione delle dipendenze locali o CI/CD.
- Archiviare i dati operativi, come file di log o file di checkpoint.
Importante
Non è possibile registrare i file nei volumi come tabelle in Unity Catalog. I volumi sono destinati ad essere usati solo per l'accesso ai dati basato sul percorso. Usare le tabelle quando si vogliono usare dati tabulari in Unity Catalog.
Che cos'è un volume gestito?
Un volume gestito è un volume di archiviazione regolamentato dal catalogo unity creato all'interno del percorso di archiviazione gestito dello schema contenitore. Consultare Specificare un percorso di archiviazione gestito nel catalogo Unity.
I volumi gestiti consentono la creazione di risorse di archiviazione regolamentate per lavorare con i file senza sovraccarico di percorsi esterni e credenziali di archiviazione. Non è necessario specificare un percorso durante la creazione di un volume gestito e l'accesso ai file per i dati nei volumi gestiti avvierà tramite percorsi gestiti da Unity Catalog.
Che cos'è un volume esterno?
Un volume esterno è un volume di archiviazione regolamentato dal catalogo Unity registrato in una directory all'interno di una posizione esterna usando le credenziali di archiviazione regolamentate dal catalogo unity.
Il catalogo unity non gestisce il ciclo di vita e il layout dei file nei volumi esterni. Quando si elimina un volume esterno, Unity Catalog non elimina i dati sottostanti.
Quale percorso viene usato per accedere ai file in un volume?
I volumi si trovano al terzo livello dello spazio dei nomi a tre livelli del catalogo Unity (catalog.schema.volume
):
Il percorso per accedere ai volumi è lo stesso sia che si usi Apache Spark, SQL, Python o altri linguaggi e librerie. Questo comportamento differisce dai modelli di accesso legacy per i file nell'archiviazione a oggetti associata a un'area di lavoro di Azure Databricks.
Il percorso per accedere ai file nei volumi usa il formato seguente:
/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
Azure Databricks supporta anche uno schema facoltativo dbfs:/
quando si usa Apache Spark, quindi funziona anche il percorso seguente:
dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
La sequenza /<catalog>/<schema>/<volume>
nel percorso corrisponde ai tre nomi di oggetti del catalogo Unity associati al file. Questi elementi di percorso sono di sola lettura e non direttamente scrivibili dagli utenti, ovvero non è possibile creare o eliminare queste directory usando le operazioni del file system. Vengono gestiti e mantenuti automaticamente sincronizzati con le entità del catalogo Unity corrispondenti.
Nota
È anche possibile accedere ai dati in volumi esterni usando gli URI di archiviazione cloud.
Percorsi riservati per i volumi
Volumi introduce i seguenti percorsi riservati per l'accesso ai volumi:
dbfs:/Volumes
/Volumes
Nota
I percorsi sono anche riservati a potenziali errori di battitura per questi percorsi dalle API Apache Spark e dbutils
, tra cui /volumes
, /Volume
, /volume
, indipendentemente dal fatto che siano preceduti da dbfs:/
. Il percorso /dbfs/Volumes
è riservato, ma non può essere usato per accedere ai volumi.
I volumi sono supportati solo su Databricks Runtime 13.3 LTS e versioni successive. In Databricks Runtime 12.2 LTS e versioni successive le operazioni sui /Volumes
percorsi potrebbero avere esito positivo, ma possono scrivere solo dati in dischi di archiviazione temporanei collegati ai cluster di calcolo anziché rendere persistenti i dati nei volumi di Unity Catalog come previsto.
Importante
Se si dispone di dati preesistenti archiviati in un percorso riservato nella radice DBFS, è possibile inviare un ticket di supporto per ottenere l'accesso temporaneo a questi dati per spostarli in un'altra posizione.
Requisiti di calcolo
Quando si lavora con i volumi, è necessario utilizzare un SQL Warehouse o un cluster che esegue Databricks Runtime 13.3 LTS o superiore, a meno che non si stiano usando le interfacce utente di Azure Databricks, come Catalog Explorer.
Limiti
È necessario usare il calcolo abilitato per Unity Catalog per interagire con i volumi di Unity Catalog. I volumi non supportano tutti i carichi di lavoro.
La tabella seguente illustra le limitazioni del volume di Unity Catalog in base alla versione di Databricks Runtime:
Versione di Databricks Runtime | Limiti |
---|---|
Tutte le versioni supportate di Databricks Runtime |
|
14.3 LTS e versioni successive |
|
14.2 e versioni precedenti |
|
Passaggi successivi
Gli articoli seguenti forniscono altre informazioni sull'uso dei volumi: