Connessione all'archiviazione di oggetti cloud tramite il catalogo unity

Questo articolo offre una panoramica delle configurazioni di connessione all'archiviazione cloud necessarie per lavorare con i dati usando Unity Catalog.

Databricks consiglia di usare Unity Catalog per gestire l'accesso a tutti i dati archiviati nell'archiviazione di oggetti cloud. Il catalogo unity offre una suite di strumenti per configurare connessioni sicure all'archiviazione di oggetti cloud. Queste connessioni forniscono l'accesso per completare le azioni seguenti:

  • Inserire dati non elaborati in un lakehouse.
  • Creare e leggere tabelle gestite nell'archiviazione cloud sicura.
  • Registrare o creare tabelle esterne contenenti dati tabulari.
  • Leggere e scrivere dati non strutturati.

Avviso

Non concedere agli utenti finali l'accesso a livello di archiviazione a tabelle o volumi gestiti del catalogo Unity. Ciò compromette la sicurezza e la governance dei dati.

Concedere agli utenti l'accesso diretto a livello di archiviazione alla posizione esterna in Azure Data Lake Archiviazione Gen2 non rispetta le autorizzazioni concesse o controllate gestite da Unity Catalog. L'accesso diretto bypasserà il controllo, la derivazione e altre funzionalità di sicurezza e monitoraggio di Unity Catalog, inclusi il controllo di accesso e le autorizzazioni. L'utente è responsabile della gestione dell'accesso diretto all'archiviazione tramite Azure Data Lake Archiviazione Gen2 e garantire che gli utenti dispongano delle autorizzazioni appropriate concesse tramite Fabric.

Evitare tutti gli scenari che concedono l'accesso in scrittura diretto a livello di archiviazione per i bucket che archiviano tabelle gestite di Databricks. La modifica, l'eliminazione o l'evoluzione di tutti gli oggetti direttamente tramite l'archiviazione originariamente gestita da Unity Catalog possono causare un danneggiamento dei dati.

Nota

Se l'area di lavoro è stata creata prima del 9 novembre 2023, potrebbe non essere abilitata per il catalogo Unity. Un amministratore dell'account deve abilitare Unity Catalog per l'area di lavoro. Vedere Abilitare un'area di lavoro per il catalogo unity.

In che modo Unity Catalog connette l'archiviazione oggetti ad Azure Databricks?

Azure Databricks supporta sia i contenitori di Azure Data Lake Archiviazione Gen2 che i bucket Cloudflare R2 (anteprima pubblica) come percorsi di archiviazione cloud per i dati e gli asset di intelligenza artificiale registrati in Unity Catalog. R2 è destinato principalmente ai casi d'uso in cui si vogliono evitare costi di uscita dei dati, ad esempio la condivisione differenziale tra cloud e aree. Per altre informazioni, vedere Usare repliche Cloudflare R2 o eseguire la migrazione dell'archiviazione a R2.

Per gestire l'accesso all'archiviazione cloud sottostante che contiene tabelle e volumi, Unity Catalog usa i tipi di oggetto seguenti:

  • Una credenziale di archiviazione rappresenta un meccanismo di autenticazione e autorizzazione per l'accesso ai dati archiviati nel tenant cloud, usando un'identità gestita di Azure o un'entità servizio per i contenitori di Azure Data Lake Archiviazione Gen2 o un token API R2 per i bucket Cloudflare R2. Ogni credenziale di archiviazione è soggetta ai criteri di controllo di accesso di Unity Catalog che controllano quali utenti e gruppi possono accedere alle credenziali. Se un utente non ha accesso a credenziali di archiviazione nel catalogo unity, la richiesta ha esito negativo e Il catalogo Unity non tenta di eseguire l'autenticazione nel tenant cloud per conto dell'utente. L'autorizzazione per creare le credenziali di archiviazione deve essere concessa solo agli utenti che devono definire posizioni esterne. Vedere Creare credenziali di archiviazione per la connessione ad Azure Data Lake Archiviazione Gen2 e Creare credenziali di archiviazione per la connessione a Cloudflare R2.

  • Una posizione esterna è un oggetto che combina un percorso di archiviazione cloud con credenziali di archiviazione che autorizza l'accesso al percorso di archiviazione cloud. Ogni posizione di archiviazione è soggetta ai criteri di controllo di accesso del catalogo Unity che controllano quali utenti e gruppi possono accedere alle credenziali. Se un utente non ha accesso a un percorso di archiviazione nel catalogo unity, la richiesta non riesce e Il catalogo Unity non tenta di eseguire l'autenticazione nel tenant cloud per conto dell'utente. L'autorizzazione per creare e usare percorsi esterni deve essere concessa solo agli utenti che devono creare tabelle esterne, volumi esterni o percorsi di archiviazione gestiti. Vedere Creare una posizione esterna per connettere l'archiviazione cloud ad Azure Databricks.

    Le posizioni esterne vengono usate sia per gli asset di dati esterni, come tabelle esterne e volumi esterni, sia per gli asset di dati gestiti , ad esempio tabelle gestite e volumi gestiti. Per altre informazioni sulla differenza, vedere Tabelle e volumi.

    Quando viene usato un percorso esterno per l'archiviazione di tabelle gestite e volumi gestiti, viene definito percorso di archiviazione gestito. I percorsi di archiviazione gestiti possono esistere a livello di metastore, catalogo o schema. Databricks consiglia di configurare posizioni di archiviazione gestite a livello di catalogo. Se è necessario un isolamento più granulare, è possibile specificare percorsi di archiviazione gestiti a livello di schema. Per impostazione predefinita, le aree di lavoro abilitate per Il catalogo Unity non hanno spazio di archiviazione a livello di metastore, ma è possibile specificare un percorso di archiviazione gestito a livello di metastore per fornire l'archiviazione predefinita quando non viene definita alcuna risorsa di archiviazione a livello di catalogo. Le aree di lavoro abilitate per Unity Catalog ricevono manualmente un percorso di archiviazione gestito a livello di metastore per impostazione predefinita. Vedere Specificare un percorso di archiviazione gestito nel catalogo unity e nelle procedure consigliate per il catalogo Unity.

I volumi sono l'oggetto a protezione diretta che la maggior parte degli utenti di Azure Databricks deve usare per interagire direttamente con dati non tabulari nell'archiviazione di oggetti cloud. Vedere Creare e usare volumi.

Nota

Mentre Unity Catalog supporta l'accesso basato sul percorso a tabelle esterne e volumi esterni usando gli URI di archiviazione cloud, Databricks consiglia agli utenti di leggere e scrivere tutte le tabelle del Catalogo Unity usando nomi di tabella e accedere ai dati nei volumi usando /Volumes percorsi.

Passaggi successivi

Se si sta appena iniziando a usare Unity Catalog come amministratore, vedere Configurare e gestire Il catalogo unity.

Se si è un nuovo utente e l'area di lavoro è già abilitata per il catalogo Unity, vedere Esercitazione: Creare tabelle e concedere privilegi in Unity Catalog.