Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina offre una panoramica di come gestire i dati usando Unity Catalog in Azure Databricks.
Annotazioni
Questa pagina è incentrata sulla governance dei dati. Gli argomenti relativi alla sicurezza, ad esempio i seguenti, sono trattati in Sicurezza e conformità:
- Autenticazione e controllo di accesso
- Configurazione di rete
- Sicurezza e crittografia dei dati
- Privacy e conformità
Cos'è Unity Catalog?
Unity Catalog è un catalogo dati centralizzato che fornisce un controllo di accesso granulare per i dati tabulari e non strutturati in più formati su più piattaforme, insieme alla governance degli asset di intelligenza artificiale come i modelli di Machine Learning. Include anche gli strumenti necessari per individuare i dati, tenere traccia dell'utilizzo, acquisire derivazione e monitorare la qualità dei dati.
Unity Catalog è open source e supporta più piattaforme. È profondamente integrato in Azure Databricks.
Consulta Che cos'è il Catalogo Unity?.
Modello di governance dei dati di Unity Catalog
La governance dei dati con Unity Catalog offre quanto segue:
- Unificazione dei dati: una visualizzazione unificata di tutti i dati e degli asset di intelligenza artificiale, su piattaforme diverse, riducendo la duplicazione e lo sprawl.
- Controllo di accesso ai dati: strumenti per garantire che i dati siano facili da accedere, ma solo per gli utenti appropriati.
- Individuabilità dei dati: strumenti che semplificano la ricerca dei dati necessari.
- Qualità dei dati: strumenti per garantire che i dati siano accurati, completi, coerenti e sicuri per tutto il ciclo di vita.
- Collaborazione e condivisione dei dati: la possibilità di condividere i dati in modo sicuro non solo all'interno dell'organizzazione, ma oltre i limiti dell'organizzazione e della piattaforma.
- Controllo: strumenti che acquisisce chi usa i dati e come.
Questa pagina illustra come l'organizzazione può soddisfare queste esigenze usando Unity Catalog in Azure Databricks.
Controllo di accesso ai dati
Per assicurarsi che gli utenti accingano solo ai dati che devono, Unity Catalog fornisce un modello di privilegio gerarchico che consente di concedere agli utenti, ai gruppi e alle entità servizio l'accesso ai dati e agli asset di intelligenza artificiale dal livello dell'account fino alle righe e alle colonne della tabella. È possibile controllare l'accesso agli asset archiviati nell'archiviazione di Unity Catalog dedicata o archiviati in altre piattaforme, ad esempio l'archiviazione cloud o i sistemi di database: la chiave è che Unity Catalog consente agli utenti di accedere a tutti i dati, indipendentemente da dove si trovano, dall'interno di Azure Databricks e che Unity Catalog controlla l'accesso e tiene traccia dell'utilizzo dei dati.
Attività | Descrizione |
---|---|
Gestire i privilegi | Informazioni sugli oggetti a protezione diretta gestiti da Unity Catalog e su come controllarne l'accesso. |
Gestire il controllo degli accessi basato sugli attributi (ABAC) | Informazioni su come controllare l'accesso ai dati tramite il controllo degli accessi in base agli attributi in Unity Catalog. |
Gestire le identità | Informazioni su come gestire le identità nel contesto di Unity Catalog. |
Controllo di accesso con granularità fine | Informazioni su come controllare l'accesso ai dati della tabella usando filtri di riga e maschere di colonna. |
Gestire l'accesso alle piattaforme di archiviazione e dati esterne | Informazioni su come controllare l'accesso all'archiviazione cloud, alle piattaforme dati esterne e ai servizi esterni non dati usando Unity Catalog. |
Gestire l'accesso da piattaforme esterne | Informazioni su come Unity Catalog può gestire l'accesso ai dati da piattaforme esterne che usano Apache Iceberg o le API del catalogo Di Unity open source. |
Rintracciabilità dei dati
Azure Databricks e Unity Catalog offrono gli strumenti seguenti per aiutare gli utenti a trovare i dati necessari:
Caratteristica / Funzionalità | Descrizione |
---|---|
Esploratore di Cataloghi | Esplorare e cercare i dati e gli asset di intelligenza artificiale usando nomi di asset e metadati, ad esempio commenti e tag. |
Browser del catalogo | Trova dati e asset di intelligenza artificiale utilizzando i browser integrati negli editor di notebook e di query SQL. Vedi Esplora il notebook e l'editor di file di Databricks e Scrivi query ed esplora dati nel nuovo editor SQL. |
Commenti generati dall'intelligenza artificiale | Generare automaticamente la documentazione degli asset di dati e intelligenza artificiale per facilitare l'individuazione. |
Informazioni dettagliate sulle tabelle | Usare un'interfaccia utente integrata in Esplora cataloghi per visualizzare gli utenti e le query più frequenti di qualsiasi tabella in Unity Catalog. |
Tracciabilità dei dati | Acquisire e visualizzare il modo in cui i dati passano attraverso l'organizzazione. Per la derivazione di funzionalità e modelli, vedere Governance delle funzionalità e derivazione. |
Diagrammi delle relazioni tra entità (ERD) | Visualizzare le relazioni per le tabelle con chiavi esterne definite. |
Vedi anche Individuare i dati.
Monitoraggio della qualità dei dati
Gli strumenti per garantire la qualità dei dati e l'integrità dei dati sono integrati in modo approfondito in Delta Lake, Apache Spark e Azure Databricks. È possibile ottenere informazioni su di essi in tutta la documentazione di Azure Databricks.
Il catalogo unity aggiunge quanto segue:
Caratteristica / Funzionalità | Descrizione |
---|---|
Il monitoraggio del Lakehouse | Strumento di monitoraggio dei dati che acquisisce le proprietà statistiche e la qualità dei dati in tutte le tabelle dell'account. È anche possibile usarlo per tenere traccia delle prestazioni dei modelli di Machine Learning e degli endpoint di gestione dei modelli monitorando le tabelle di inferenza che contengono input e stime del modello. |
Tag di sistema certificati e deprecati | Etichettare oggetti a protezione diretta, ad esempio cataloghi, schemi e tabelle, con indicatori di qualità dei dati o stato del ciclo di vita. Questi tag di sistema consentono alle organizzazioni di applicare la governance, migliorare l'individuabilità dei dati e aumentare la fiducia nelle applicazioni di analisi e intelligenza artificiale. |
Collaborazione e condivisione dei dati
Unity Catalog consente agli utenti di collaborare sugli stessi dati in tutte le aree di lavoro dell'account nella stessa area. Quando è necessaria la collaborazione tra aree dell'area di lavoro, tra organizzazioni e piattaforme, Unity Catalog offre le basi per gli strumenti di condivisione seguenti.
Caratteristica / Funzionalità | Descrizione |
---|---|
Condivisione differenziale | Piattaforma di condivisione dei dati sicura che consente di condividere dati e asset di intelligenza artificiale in Azure Databricks con utenti esterni all'organizzazione, indipendentemente dal fatto che gli utenti usino o meno Databricks. |
Camere pulite | Un ambiente gestito da Databricks in cui più partecipanti su databricks e piattaforme non Databricks possono collaborare a progetti senza condividere dati sottostanti tra loro. |
Databricks Marketplace | Un forum aperto per lo scambio di dati e prodotti di intelligenza artificiale. Fornisce anche uno scambio di dati privato. |
Revisione contabile
I log di controllo acquisiscono dettagli dettagliati sugli utenti che hanno eseguito l'accesso a un determinato set di dati e sulle azioni eseguite. Unity Catalog aggiunge tabelle di sistema, il modo più semplice per accedere ed eseguire query sui log di controllo dell'account.
Vedere Informazioni di riferimento sul log di diagnostica e Monitorare l'attività dell'account con le tabelle di sistema.
Strumenti legacy di governance dei dati di Azure Databricks
Azure Databricks offre anche queste funzionalità di governance legacy. Databricks consiglia di usare invece Unity Catalog.
Caratteristica / Funzionalità | Descrizione |
---|---|
controllo di accesso alle tabelle | Modello di governance dei dati legacy che consente di concedere e revocare l'accesso a livello di codice agli oggetti gestiti dal metastore Hive predefinito dell'area di lavoro. |
Pass-through delle credenziali di Azure Data Lake Storage | Funzionalità di governance dei dati legacy che consente di autenticarsi automaticamente su Archiviazione di Azure dai cluster di Azure Databricks usando la stessa identità ID di Microsoft Entra usata per accedere ad Azure Databricks. |
Passaggi successivi
- Altre informazioni sul catalogo unity: Che cos'è il catalogo Unity?
- Introduzione a Unity Catalog: Introduzione al catalogo unity
- Esaminare le procedure consigliate: Che cos'è il catalogo unity?