Condividi tramite


Standard di metadati

La gestione dei metadati svolge un ruolo fondamentale nell'architettura dei dati. I metadati sono dati relativi ad altri dati. Descrive i dati, fornendo un riferimento che consente di trovare, proteggere e controllare i dati. I metadati associano anche i dati. Può essere usato per convalidare l'integrità e la qualità dei dati, indirizzare o replicare i dati in una nuova posizione, trasformare i dati e conoscere i significati dei dati. I metadati sono essenziali anche per la democratizzazione dei dati tramite portali self-service.

Una buona strategia di gestione dei metadati aumenta in modo organico. Inizia semplice e piccolo identificando prima le aree più importanti. Una buona strategia di gestione dei metadati è supportata anche con i servizi e i processi chiari. Per iniziare, è consigliabile tenere presenti le diverse categorie di metadati:

  • I metadati aziendali descrivono tutti gli aspetti usati per la governance, la ricerca e la comprensione dei dati. Alcuni esempi noti includono termini e definizioni di business e informazioni sulla proprietà dei dati, sull'utilizzo e sull'origine.
  • I metadati tecnici descrivono gli aspetti strutturali dei dati in fase di progettazione. Alcuni esempi noti includono informazioni sullo schema, informazioni sul formato dei dati e sul protocollo e chiavi di crittografia e decrittografia.
  • I metadati operativi descrivono gli aspetti di elaborazione dei dati in fase di esecuzione. Alcuni esempi noti includono informazioni sui processi, tempo di esecuzione, informazioni sugli errori del processo e ID processo.
  • I metadati di social networking descrivono la prospettiva utente dei dati dei propri consumer. Alcuni esempi noti includono l'uso e le informazioni di rilevamento degli utenti, i dati dei risultati della ricerca, i filtri e i clic, il tempo di visualizzazione, i riscontri del profilo e i commenti.

Nell'architettura dei dati decentralizzata, la gestione dei metadati è una sfida organizzativa che richiede un equilibrio tra metadati gestiti centralmente e metadati gestiti federati. È importante comprendere i team e le funzioni per l'analisi su scala cloud in Azure durante la pianificazione della gestione dei metadati. L'uso di una pratica di gestione dei dati collaborativa migliora la comunicazione, l'integrazione e l'automazione del flusso di dati tra i team. È possibile affrontare alcune delle complessità della gestione dei metadati sfruttando il giusto equilibrio tra la governance centrale e la proprietà del dominio.

Quando si decide quali metadati gestire centralmente o federate nei domini dati e iniziare l'implementazione, chiedere:

  • Quali metadati aziendali sono critici?
  • Quali metadati tecnici sono necessari per l'interoperabilità?
  • Quali processi e flussi acquisisce i dati?
  • Dove vengono creati e mantenuti i modelli o gli schemi?
  • Quali team informativi devono fornire centralmente per consentire al reparto di governance dei dati di svolgere correttamente il proprio lavoro?

Usando le risposte a queste domande, eseguire il mapping del ciclo di vita del contenuto per ognuno dei flussi di metadati e determinare tutte le dipendenze. Si dispone quindi di un modello di metadati in grado di connettere domini aziendali, processi, tecnologie e dati.

Dopo aver appreso i metadati necessari, è necessario scegliere una posizione in cui archiviarla ed elaborarla. A tale scopo, è possibile usare Azure Purview.

Usare Azure Purview per gestire il patrimonio di dati di grandi dimensioni

Azure Purview è una soluzione unificata di governance dei dati che consente di gestire e gestire i dati SaaS (Software as a Service) locali, multicloud e software-as-a-service. Esegue la gestione dei metadati su larga scala, perché è un servizio completamente automatizzato che esegue in modo intelligente l'individuazione dei dati, l'analisi dei dati e la gestione degli accessi. Fornisce anche una mappa olistica di molte informazioni dettagliate sull'architettura della mesh di dati.

Quando si implementa Azure Purview, non introdurre troppe modifiche e complessità rapidamente. I metadati tecnici sono le basi di Azure Purview. È necessario raccogliere e organizzare i metadati prima di poterli comprendere.

Dopo aver ottenuto i metadati, iniziare con le nozioni di base:

  • Termini di business
  • Elenchi di origini dati autorevoli
  • Elenchi di database
  • Informazioni sullo schema
  • Proprietà dei dati
  • Gestione dei dati
  • Sicurezza

Ridimensionare quindi lentamente i proprietari di dominio e gli amministratori dei dati e aggiungendo altre classificazioni ed etichette di riservatezza. Queste aggiunte migliorano l'esperienza di ricerca e consentono una migliore gestione degli accessi ai dati.

Per gli attributi di metadati personalizzati, ad esempio elenchi di domini e metadati dell'applicazione, è consigliabile creare definizioni di tipi aggiuntive in Azure Purview.

Per l'architettura orientata al dominio, allineare le raccolte e i glossari di Azure Purview ai domini dati. Le raccolte di Azure Purview organizzano asset e origini. È possibile usare una raccolta come limite per le risorse e le origini e allinearla a un determinato dominio. È possibile eseguire la stessa operazione con il glossario. Creare strutture di gerarchia all'interno del glossario e allinearle ai domini. Chiedere ai domini di acquisire la proprietà per la creazione di relazioni tra i termini di glossario e gli attributi della raccolta. In questo modo si crea la trasparenza della proprietà dei dati e si migliora la semantica dei dati.

Usare Azure Cosmos DB per creare knowledge graph dell'organizzazione

C'è una tendenza in crescita nel settore per avvicinare i dati analitici agli analisti dei dati e agli scienziati che usano portali che usano più metadati in modo intensivo. Questa tendenza è nota come osservabilità dei dati. L'osservabilità dei dati usa concetti come metadata lake, grafici delle conoscenze o grafici di metadati per descrivere le piattaforme in cui i metadati sono centralizzati. Questo è un buon modo per creare una visualizzazione unificata del modo in cui i dati vengono usati e originati nell'organizzazione quando si usa una mesh di dati distribuita.

Una soluzione di informazioni dettagliate sui dati deve descrivere il modo in cui vengono usati i dati e le relazioni tra entità come i prodotti dati di origine e dati e tra prodotti dati di un dominio e prodotti dipendenti da un altro dominio. È possibile usare un database a grafo o un'interfaccia utente personalizzata per modellare queste relazioni.

Per creare una visualizzazione unificata dei dati dell'organizzazione con esperienza utente personalizzata, vedere Azure Cosmos DB. Azure Cosmos DB è un servizio di database multimodello distribuito a livello globale con endpoint NoSQL. Fornisce un servizio di database a grafo tramite Azure Cosmos DB per Apache Gremlin per archiviare grafici di grandi dimensioni con miliardi di vertici e archi.

Il risultato finale dell'architettura di Azure Cosmos DB è un grafico a livello di organizzazione che fornisce una visualizzazione unificata di tutti i dati nell'organizzazione usando il contesto end-to-end. Il data lake dei metadati non riguarda solo l'archiviazione delle informazioni. Organizza anche attivamente i metadati come grafico connettendolo ad altri servizi e strumenti. Questo grafico organizzato consente di correlare tra più aree di interesse, tra cui:

  • Domini
  • Qualità dei dati
  • Consumo dati
  • Funzionalità aziendali
  • Funzioni delle applicazioni
  • Informazioni sull'architettura tecnica
  • Eventi operativi
  • Metadati dell'organizzazione
  • Metadati di proprietà dell'applicazione
  • Informazioni sulla posizione
  • Informazioni sulla gestione del ciclo di vita dell'applicazione

Passaggi successivi