Catalogo dati

Articolo
07/11/2023

Il catalogo dati registra e gestisce le informazioni sui dati in un luogo centralizzato e lo rende disponibile per l'organizzazione. Garantisce che le aziende evitare prodotti dati duplicati causati dall'inserimento di dati ridondanti da diversi team di progetto.

È consigliabile effettuare il provisioning di un servizio catalogo dati per definire i metadati dei prodotti dati archiviati nelle zone di destinazione dei dati.

L'analisi su scala cloud si basa su Microsoft Purview per fungere da:

Un sistema di registrazione
Individuazione per le origini dati aziendali
Motore di classificazione dei dati
Archivio criteri
API per la registrazione e la lettura delle informazioni sui dati
Hub del dashboard di conformità

Poiché il catalogo dati fa parte della zona di destinazione di gestione dei dati, può comunicare con ogni zona di destinazione dei dati tramite il peering della rete virtuale e i runtime di integrazione self-hosted. L'individuazione dei prodotti dati negli archivi locali e altri cloud pubblici viene ottenuta da più distribuzioni di runtime di integrazione self-hosted.

Nota

Anche se questa documentazione si concentra principalmente sull'uso di Microsoft Purview per le funzionalità del catalogo dati e la classificazione dei dati, le aziende potrebbero aver investito in altri prodotti, ad esempio Alation, Okera o Collibra. In questo caso, collaborare con il fornitore per applicare i principi descritti per una zona di destinazione di gestione dei dati il più vicino possibile. Occorre essere consapevoli che potrebbe essere necessaria un'integrazione personalizzata.

Individuazione dei dati

L'individuazione dei dati riflette lo stato di tutti i dati proprietari dell'organizzazione. Questi dati sono noti come data estate. Durante l'individuazione dei dati, l'area dati viene analizzata e classificata. Il processo di analisi dei dati si connette direttamente all'origine dati in base a una pianificazione impostata.

Man mano che si aggiunge una nuova zona di destinazione dei dati all'ambiente, i data lake associati e le origini di persistenza poliglot vengono registrati come origini per i crawler del catalogo dati da analizzare.

Con l'individuazione automatica dell'area dati per popolare il catalogo, è possibile:

Eseguire la ricerca per indicizzazione dei metadati dalle origini dati di Azure e locali
Analizzare i data lake, i BLOB e altre destinazioni supportate
Estrarre lo schema dalle destinazioni dati per i tipi di file XML, TSV, CSV, PSV, SSV, JSON, Parquet, Avro e ORC
Consenti aggiornamenti automatici del catalogo tramite la pianificazione configurabile di analisi e set di regole di analisi

Importante

Quando si aggiunge una nuova zona di destinazione dei dati all'ambiente, registrare i data lake associati e l'archiviazione poliglot tramite Azure DevOps come origine per i crawler del catalogo dati da analizzare.

Classificazione dati

Microsoft Purview consente di applicare le classificazioni di dati personalizzate o di sistema nei file, nella tabella o nelle risorse di colonna.

Le classificazioni dei dati sono come tag oggetto. Microsoft Purview contrassegna e identifica il contenuto di tipi di dati specifici trovati all'interno dell'area dati durante l'analisi. Si usano etichette di riservatezza per identificare le categorie di tipi di classificazione all'interno dei dati dell'organizzazione. È anche possibile usare le etichette di riservatezza per raggruppare i criteri da applicare a ogni categoria. Microsoft Purview usa gli stessi tipi di informazioni sensibili di Microsoft 365, consentendo di estendere i criteri di sicurezza e le protezioni esistenti nell'intero contenuto e nell'insieme delle proprietà dei dati.

Microsoft Purview può analizzare e classificare automaticamente i documenti. Ad esempio, se si dispone di un file denominato multiple.docx e ha un numero ID nazionale nel relativo contenuto, Microsoft Purview aggiunge una classificazione, ad EU National Identification Number esempio nella pagina dei dettagli dell'asset.

Microsoft Defender per SQL è una funzionalità disponibile per database SQL di Azure, Istanza gestita di SQL di Azure e Azure Synapse Analytics. Include funzionalità per l'individuazione e la classificazione di dati sensibili, il rilevamento e l'attenuazione di potenziali vulnerabilità dei database e il rilevamento di attività anomale che possono indicare una minaccia per il database. Microsoft Defender per SQL offre una posizione unica per l'abilitazione e la gestione di queste funzionalità.

Passaggi successivi

Derivazione dei dati

Condividi tramite

Catalogo dati

Individuazione dei dati

Classificazione dati

Passaggi successivi

Risorse aggiuntive