Condividi tramite


Che cos'è il Catalogo dei dati di Azure?

Importante

Azure Data Catalog è stato ritirato il 15 maggio 2024.

Per le funzionalità del catalogo dati, usare il servizio Microsoft Purview, che offre una governance unificata dei dati per l'intero patrimonio di dati.

Azure Data Catalog è un servizio cloud completamente gestito che consente agli utenti di individuare le origini dati necessarie e comprenderle. Data Catalog aiuta inoltre le organizzazioni a sfruttare al meglio gli investimenti esistenti.

Con Data Catalog qualsiasi utente, dagli analisti ai data scientist fino agli sviluppatori, può individuare, comprendere e utilizzare le origini dati nel panorama dei dati. Data Catalog include un modello di crowdsourcing di metadati e annotazioni, in modo che tutti possano contribuire a rendere individuabili e utilizzabili i dati. Si tratta si un'unica posizione centrale in cui tutti gli utenti dell'organizzazione possono contribuire con le proprie conoscenze per creare una community e una cultura dei dati.

Difficoltà di individuazione per i consumer di dati

Tradizionalmente, l'individuazione di origini dati aziendali è stato un processo organico basato su conoscenze specifiche. Per le aziende che vogliono sfruttare al meglio i propri asset di informazioni, questo approccio presenta numerose sfide:

  • Gli utenti potrebbero non sapere dell'esistenza di un'origine dati, a meno che non la individuino nel corso di un altro processo. Non c'è una posizione centrale in cui le origini dati vengono registrate.
  • Se gli utenti non conoscono la posizione di un'origine dati, non possono connettersi ai dati tramite un'applicazione client. Per poter utilizzare i dati, gli utenti devono conoscere la stringa di connessione o il percorso.
  • Se gli utenti non conoscono la posizione della documentazione relativa a un'origine dati, non possono comprendere le modalità d'uso previste per i dati. Le origini dati e la documentazione possono trovarsi in diverse posizioni e essere utilizzate tramite diverse esperienze.
  • Se gli utenti hanno domande su un asset di informazioni, devono trovare l'esperto o il team responsabile dei dati e interagire offline. Non esiste una connessione esplicita tra dati e persone esperte del loro uso.
  • Se gli utenti non conoscono il processo per richiedere l'accesso all'origine dati, l'individuazione dell'origine dati e della relativa documentazione non consente comunque di accedere ai dati.

Difficoltà di individuazione per i produttori di dati

Mentre chi utilizza i dati si trova ad affrontare le difficoltà descritte in precedenza, anche gli utenti responsabili della produzione e della gestione degli asset di informazioni affrontano difficoltà specifiche:

  • L'annotazione delle origini dati con metadati descrittivi è spesso una fatica inutile. Le applicazioni client in genere ignorano le descrizioni che vengono archiviate nell'origine dati.
  • La creazione di documentazione per le origini dati è spesso una fatica inutile. Mantenere la documentazione sincronizzata con le origini dati è una responsabilità permanente. Gli utenti potrebbero perdere fiducia in una documentazione percepita come obsoleta.
  • La creazione e la manutenzione della documentazione per le origini dati sono operazioni lunghe e complesse. Lo stesso vale per il lavoro necessario per rendere la documentazione disponibile per tutti coloro che usano l'origine dati.
  • Limitare l'accesso alle origini dati e garantire che i consumer di dati sappiano come richiedere l'accesso è una sfida costante.

Queste sfide, in combinazione, rappresentano un ostacolo significativo per le aziende che vogliono incoraggiare e promuovere l'uso e la comprensione dei dati aziendali.

Utilità di Azure Data Catalog

Data Catalog è progettato per risolvere questi problemi e aiutare le aziende a sfruttare al meglio gli asset di informazioni esistenti. Data Catalog rende le origini dati facilmente individuabili e comprensibili per gli utenti che gestiscono i dati.

Data Catalog fornisce un servizio basato sul cloud in cui le origini dati possono essere registrate. I dati rimangono nella posizione esistente, ma una copia dei relativi metadati viene aggiunta a Data Catalog, insieme a un riferimento alla posizione dell'origine dati. I metadati vengono anche indicizzati per semplificare l'individuazione di ogni origine dati tramite una ricerca e per rendere l'origine dati comprensibile per gli utenti che la individuano.

Dopo la registrazione di un'origine dati, è possibile arricchirne i metadati. I metadati possono essere aggiunti dall'utente che li ha registrati o da altri utenti dell'organizzazione. Tutti gli utenti possono annotare un'origine dati, fornendo descrizioni, tag o altri metadati, come ad esempio la documentazione e i processi per richiedere l’accesso all’origine dati. Questi metadati descrittivi integrano i metadati strutturali, ad esempio i nomi delle colonne e i tipi di dati, registrati dall'origine dati.

Individuazione e informazioni sulle origini dati e il relativo utilizzo è lo scopo principale di registrazione delle origini. Gli utenti aziendali possono aver bisogno dei dati per scopi di business intelligence, sviluppo di applicazioni, data science o qualsiasi altra attività in cui sono necessari dati appropriati. Possono usare la funzione di individuazione di Data Catalog per trovare rapidamente i dati necessari, comprenderli per valutare la loro idoneità allo scopo e utilizzarli aprendo l'origine dati nello strumento che preferiscono.

Allo stesso tempo, gli utenti possono contribuire al catalogo documentando e annotando le origini dati già registrate, oltre che aggiungendo tag. Possono anche registrare nuove origini dati, che possono quindi essere individuate, comprese e utilizzate dalla community di utenti del catalogo.

Funzionalità di Data Catalog

Altre informazioni su Data Catalog

Per altre informazioni sulle funzionalità di Data Catalog, vedere:

Passaggi successivi