Condividi tramite


Connettersi all'archiviazione di oggetti cloud usando il catalogo Unity

Questo articolo offre una panoramica delle configurazioni di connessione all'archiviazione cloud necessarie per lavorare con i dati usando il catalogo Unity.

Per gestire l'accesso a tutti i dati archiviati nell'archiviazione cloud, usare il catalogo Unity. Il catalogo Unity offre una suite di strumenti per configurare connessioni sicure all'archiviazione di oggetti cloud. Queste connessioni forniscono l'accesso per completare le seguenti azioni:

  • Inserire dati non elaborati in un lakehouse.
  • Creare e leggere tabelle gestite nell'archiviazione cloud sicura.
  • Registrare o creare tabelle esterne contenenti dati tabulari.
  • Leggere e scrivere dati non strutturati.

Avviso

Non concedere agli utenti finali l'accesso a livello di archiviazione a tabelle o volumi gestiti del catalogo Unity. Ciò compromette la sicurezza e governance dei dati.

Concedere agli utenti l’accesso diretto a livello di archiviazione alla sede di archiviazione esterna in Azure Data Lake Storage Gen2 non rispetta le autorizzazioni concesse né i controlli effettuati da Unity Catalog. L'accesso diretto ignora il controllo, la derivazione e altre funzioni di sicurezza/monitoraggio del catalogo Unity, tra cui il controllo di accesso e le autorizzazioni. È responsabilità dell’operatore gestire l'accesso diretto all'archiviazione tramite Azure Data Lake Storage Gen2 e garantire che gli utenti dispongano delle autorizzazioni appropriate concesse tramite Fabric.

Evitare tutti gli scenari che concedono l'accesso in scrittura a livello di archiviazione diretta per i bucket che archiviano tabelle gestite di Databricks. La modifica, l'eliminazione o l'evoluzione di qualsiasi oggetto direttamente tramite l'archiviazione gestita originariamente dal catalogo Unity può causare un danneggiamento dei dati.

Nota

Se l'area di lavoro è stata creata prima del 9 novembre 2023, potrebbe non essere abilitata per il catalogo Unity. Un amministratore dell'account deve abilitare il catalogo Unity per l'area di lavoro. Vedere Abilitare un'area di lavoro per il catalogo Unity.

In che modo il catalogo Unity connette l'archiviazione oggetti ad Azure Databricks?

Azure Databricks supporta sia i contenitori di Azure Data Lake Storage Gen2 che i bucket Cloudflare R2 come posizioni di archiviazione cloud per i dati e gli asset di intelligenza artificiale registrati nel catalogo Unity. R2 è destinato principalmente ai casi d'uso in cui si vogliono evitare costi di uscita dei dati, ad esempio la condivisione differenziale tra cloud e aree. Per altre informazioni, si veda Usare repliche Cloudflare R2 o eseguire la migrazione dell'archiviazione a R2.

Per gestire l'accesso all'archiviazione cloud sottostante che contiene tabelle e volumi, il catalogo Unity usa i seguenti tipi di oggetto:

  • Una credenziale di archiviazione rappresenta un meccanismo di autenticazione e autorizzazione per l'accesso ai dati archiviati nel tenant cloud, usando un'identità gestita di Azure o un'entità servizio per i contenitori di Azure Data Lake Storage Gen2 o un token API R2 per i bucket Cloudflare R2. Ogni credenziale di archiviazione è soggetta ai criteri di controllo di accesso del catalogo Unity che controllano quali utenti e gruppi possono accedere alle credenziali. Se un utente non ha accesso a credenziali di archiviazione nel catalogo Unity, la richiesta ha esito negativo e il catalogo Unity non tenta di eseguire l'autenticazione nel tenant cloud per conto dell'utente. L'autorizzazione per creare le credenziali di archiviazione deve essere concessa solo agli utenti che devono definire posizioni esterne. Si veda Creare credenziali di archiviazione per la connessione ad Azure Data Lake Storage Gen2 e Creare credenziali di archiviazione per la connessione a Cloudflare R2.

  • Una posizione esterna è un oggetto che combina un percorso di archiviazione cloud con credenziali di archiviazione che autorizza l'accesso al percorso di archiviazione cloud. Ogni posizione di archiviazione è soggetta ai criteri di controllo di accesso del catalogo Unity che controllano quali utenti e gruppi possono accedere alle credenziali. Se un utente non ha accesso a posizioni di archiviazione nel catalogo Unity, la richiesta ha esito negativo e il catalogo Unity non tenta di eseguire l'autenticazione nel tenant cloud per conto dell'utente. L'autorizzazione per creare e usare percorsi esterni deve essere concessa solo agli utenti che devono creare tabelle esterne, volumi esterni o percorsi di archiviazione gestiti. Si veda Creare una posizione esterna per connettere la memorizzazione cloud ad Azure Databricks.

    Le posizioni esterne vengono usate sia per gli asset di dati esterni, come tabelle esterne e volumi esterni, sia per gli asset di dati gestiti, ad esempio tabelle gestite e volumi gestiti. Per altre informazioni sulla differenza, si veda Che cos'è una tabella? e Che cosa sono i volumi del catalogo Unity?.

    Quando viene usata una posizione esterna per l'archiviazione di tabelle gestite e volumi gestiti, la si definisce posizione di archiviazione gestita. Le posizioni di archiviazione gestite possono esistere a livello di metastore, catalogo o schema. Databricks consiglia di configurare posizioni di archiviazione gestite a livello di catalogo. Se è necessario un isolamento più granulare, è possibile specificare posizioni di archiviazione gestite a livello di schema. Le aree di lavoro abilitate per il catalogo Unity non hanno automaticamente uno spazio di archiviazione a livello di metastore per impostazione predefinita, ma è possibile specificare una posizione di archiviazione gestita a livello di metastore per disporre di una posizione predefinita quando a livello di catalogo non è definito uno spazio di archiviazione. Le aree di lavoro abilitate per il catalogo Unity ricevono manualmente una posizione di archiviazione gestita a livello di metastore per impostazione predefinita. Si veda Specificare una posizione di archiviazione gestita nel catalogo Unity e nelle procedure consigliate per il catalogo Unity.

I volumi sono l'oggetto a protezione diretta che la maggior parte degli utenti di Azure Databricks deve usare per interagire direttamente con dati non tabulari nell'archiviazione di oggetti cloud. Vedere Che cosa sono i volumi di Unity Catalog?.

Nota

Sebbene il catalogo Unity supporti l'accesso basato sul percorso alle tabelle esterne e ai volumi esterni utilizzando gli URI del cloud storage, Databricks consiglia agli utenti di leggere e scrivere tutte le tabelle del catalogo Unity utilizzando i nomi delle tabelle e di accedere ai dati nei volumi utilizzando percorsi /Volumes.

Procedure consigliate per l'archiviazione cloud con il catalogo Unity

Azure Databricks richiede l'uso di Azure Data Lake Storage Gen2 come servizio di archiviazione di Azure per i dati elaborati in Azure Databricks usando la governance del catalogo Unity. Azure Data Lake Storage Gen2 consente di separare i costi di archiviazione e calcolo e sfruttare il controllo di accesso con granularità fine fornito dal catalogo Unity. Se i dati vengono archiviati in OneLake (data lake di Microsoft Fabric) ed elaborati da Databricks (ignorando il catalogo Unity), verranno addebitati i costi di archiviazione e calcolo in bundle. Ciò può comportare costi di circa 3 volte superiori per le operazioni di lettura e 1,6 volte superiori per le operazioni di scrittura rispetto ad Azure Data Lake Storage Gen2 per l'archiviazione, la lettura e la scrittura di dati. Anche Archiviazione BLOB di Azure è incompatibile con il catalogo Unity.

Funzionalità Archiviazione BLOB di Azure Azure Data Lake Storage Gen2 OneLake
Supportato dal catalogo Unity X X
Richiede un acquisto aggiuntivo della capacità dell'infrastruttura X X
Operazioni supportate dai motori esterni * Lettura
* Scrittura
* Lettura
* Scrittura
* Lettura (le letture comportano un costo triplo rispetto alla lettura dei dati da Azure Data Lake Storage Gen2).
* Le operazioni di scrittura non sono supportate.

Per informazioni dettagliate, si veda la documentazione OneLake.
Distribuzione Regional Regional Generale
Autenticazione ID Entra firma di accesso condiviso ID Entra firma di accesso condiviso Entra ID
Eventi di archiviazione X
Elimina temporaneamente
Controllo di accesso RBAC Controllo degli accessi in base al ruolo, ABAC, ACL Controllo degli accessi in base al ruolo (solo tabella/cartella, ACL di scelta rapida non supportati)
Chiavi di crittografia X
Livelli di accesso Archivio online Hot, cool, cold, archivio Solo accesso frequente

Passaggi successivi

Se si sta iniziando a utilizzare il catalogo Unity come amministratore, si veda Configurare e gestire il catalogo Unity.

Se si è un nuovo utente e l'area di lavoro è già abilitata per il catalogo Unity, si veda Esercitazione: Creare la prima tabella e concedere privilegi.