Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'analisi self-service e le informazioni dettagliate si riferiscono a dati, strumenti e piattaforme che consentono agli utenti aziendali di accedere, analizzare e generare informazioni dettagliate dai dati in modo indipendente. L'applicazione di governance dei dati Microsoft Purview pubblica il modello di dominio dei metadati in Fabric OneLake e AdlsG2 (Azure Data Lake Storage), consentendo ai clienti di analizzare e generare informazioni dettagliate portando i propri strumenti e risorse di calcolo. L'analisi self-service dei metadati di governance dei dati è utile per favorire il miglioramento continuo della gestione dell'integrità dei data estate dei clienti e promuovere una cultura basata sui dati in tutta l'organizzazione democratizzando l'accesso alle informazioni dettagliate sulle proprietà dei dati e alla gestione della salute.
Componenti fondamentali
- Modello di dati: modello 3NF con dettagli su domini e dimensioni
-
Metadati: Metadati di governance dei dati che includono:
- Domini di governance
- Prodotti dati
- Asset di dati
- Termini del glossario
- Richiesta di sottoscrizione
- Regole di qualità dei dati
- Dimensioni
- Dati relativi alla qualità dei dati (conteggio dei passaggi e degli errori)
- Azioni di integrità dei dati (incluse le azioni sulla qualità dei dati)
- e molti altri
Vantaggi
- Emancipazione: Consente a professionisti dei dati, proprietari di prodotti dati, amministratori dei dati e analisti di esplorare i metadati di governance dei dati e collegare i metadati da varie origini per derivare informazioni dettagliate.
- Flessibilità ed efficienza: Il cliente potrà creare report personalizzati oltre ai report predefiniti nella gestione dell'integrità.
- Agilità: Consente alle organizzazioni dei clienti di rispondere più rapidamente ai problemi di gestione dell'integrità e alla correzione.
- Conveniente: Riduce la necessità di configurare piattaforme e strumenti di compilazione. Tutti i dati sono disponibili in OneLake e il cliente potrà usare gli strumenti disponibili (modello semantico fabric, report PBI, flusso di dati e notebook) in OneLake.
Report attualmente disponibili (predefiniti)
Di seguito sono riportati i report predefiniti disponibili. Questi report non sono personalizzabili.
- Asset classici : panoramica degli asset in base al tipo e alla raccolta e al relativo stato di cura.
- Adozione classica del catalogo: per comprendere a colpo d'occhio come viene usato Unified Catalog. il glossario, fornendo uno snapshot dei termini e del relativo stato.
- Classificazioni classiche : panoramica degli asset classificati e dei tipi di classificazioni.
- Gestione dei dati classica : panoramica degli asset classificati e dei tipi di classificazioni.
- Glossario classico : integrità e uso dei termini del glossario.
- Etichette di riservatezza classiche : panoramica degli asset con etichette di riservatezza applicate e dei tipi di etichette applicati.
- Governance dei dati : il report sull'integrità della governance dei dati consente al team di tenere traccia dello stato di avanzamento dell'integrità a colpo d'occhio e identificare le aree che richiedono più lavoro.
- Integrità della qualità dei dati - Dimensioni della qualità dei dati e report sulle prestazioni delle regole di qualità dei dati.
Modello di dati per i metadati di analisi self-service
Il modello di dominio 3NF fa parte del processo di normalizzazione nella progettazione del database relazionale, che garantisce che il database sia privo di ridondanza e anomalie di aggiornamento. Uno schema di database si trova nella terza forma normale se soddisfa i requisiti della prima e della seconda Forms normale e tutti i relativi attributi dipendono funzionalmente solo dalla chiave primaria. Lo scopo del modello di dominio 3NF viene usato per strutturare i dati in modo da ridurre al minimo la duplicazione e garantire l'integrità dei dati. Si concentra sulla suddivisione dei dati in tabelle correlate più piccole in cui ogni informazione viene archiviata una sola volta.
Caratteristiche:
- Eliminazione delle dipendenze transitive: gli attributi non chiave non devono dipendere da altri attributi non chiave.
- Raggruppamento logico: i dati sono raggruppati logicamente in domini in base alla funzione o al significato.
- Entity-Relationship Diagrams (ERD): comunemente usato per rappresentare i modelli di dominio 3NF, che mostrano come le entità sono correlate tra loro.
Nome di tabella | Elementi archiviati nella tabella | Chiavi di relazione |
---|---|---|
Stato provisioning dei criteri di accesso | Informazioni sullo stato di provisioning | ProvisioningStateId |
Tipo di risorsa criteri di accesso | Accedere alle informazioni sulle risorse porlich | ResourceTypeId |
Set di criteri di accesso | Informazioni generali sui criteri di accesso, sui dettagli dei casi di utilizzo dei criteri e sulla posizione in cui i criteri ne hanno applicato uno | AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK) |
Dominio aziendale | Dettagli relativi a nome di dominio aziendale, descrizione, stato e proprietà | ID dominio business padre (FK), creato dall'ID utente (FK), ultima modifica dall'ID utente (FK) |
Classificazione | Informazioni sulla classificazione degli asset di dati | ClassificationId |
Elemento dati critico | Elemenent di dati critici degli asset di dati | ID elemento dati critico |
Caso d'uso dell'accesso personalizzato | Accedere alle informazioni sui casi d'uso | AccessPolicySetId |
Asset di dati | Nome dell'asset di dati, descrizione e informazioni di origine | DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Colonna asset di dati | Nome della colonna dell'asset di dati, descrizione della colonna e riferimenti | DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created by User ID (FK), Last Modified By User ID (FK) |
Assegnazione classificazione colonna asset di dati | Chiavi di riferimento correlate all'assegnazione della classificazione dei dati | DataAssetId (FK), ColumnId (FK), ClassificationId (FK) |
Assegnazione di elementi di dati critici della colonna asset di dati | Associazione della colonna dell'asset di dati all'elemento dati critico | ColumnId |
Assegnazione di dominio asset di dati | Informazioni correlate all'assegnazione di domini di governance degli asset di dati | DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Proprietario dell'asset di dati | Informazioni sul proprietario dell'asset di dati | DataAssetOwnerId |
Assegnazione del proprietario di asset di dati | Informazioni sull'assegnazione del proprietario dell'asset di dati | DataAssetId, DataAssetOwnerId |
Tipo di dati tipo di asset di dati | Informazioni sul tipo di asset di dati | DataTypeId (UniqueId), DataAssetTypeId (FK) |
Prodotto dati | Nome del prodotto dati, descrizione, casi d'uso, stato e altre informazioni rilevanti | DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Assegnazione di asset di prodotto dati | Informazioni sull'assegnazione di prodotti dati e asset di dati | DataProductId, DataAssetId |
Assegnazione di dominio business del prodotto dati | Informazioni sull'assegnazione di domini di prodotto e governance dei dati | DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Assegnazione di elementi dati critici del prodotto dati | Assegnazione di elementi dati critici al prodotto dati | DataProductId |
Documentazione del prodotto dati | Le informazioni di riferimento sulla documentazione del prodotto dati vengono archiviate in questa tabella. | DataProductId, DocumentationId |
Assegnazione OKR prodotto dati | Obiettivi assinged e risultati chiave per il prodotto dati | ID prodotto dati, ID obiettivo, ID risultato chiave |
Proprietario del prodotto dati | Informazioni sul proprietario del prodotto dati | DataProductId, DataProductOwnerId |
Stato prodotto dati | Informazioni relative allo stato del prodotto dati (ad esempio pubblicate o bozza) | DataProductStatusId |
Condizioni per l'utilizzo del prodotto dati | Informazioni sui termini di utilizzo dei prodotti dati | DataProductId, TermOfUsedId, DataAssetId |
Tipo di prodotto dati | Informazioni sui tipi di prodotto dati, ad esempio master, riferimento o operativo | DataProductTypeId |
Frequenza di aggiornamento del prodotto dati | Informazioni sulla frequenza di aggiornamento dei dati di questo prodotto dati | UpdateFrequencyId |
Esecuzione della regola asset di qualità dei dati | Risultati dell'analisi della qualità dei dati | RuleId (FK), DataAssetId (FK), JobExecutionId (FK) |
Esecuzione del processo data quality | Stato di esecuzione del processo di qualità dei dati | JobExecutionId (UniqueId) |
Regola di qualità dei dati | Informazioni sulle regole di qualità dei dati | RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Esecuzione della colonna della regola data quality | Informazioni sulle regole di qualità dei dati superati e non riusciti, sul punteggio di qualità dei dati a livello di colonne e sui dettagli di esecuzione del processo di qualità dei dati | RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK) |
Tipo di regola data quality | Tipo di regola di qualità dei dati e dimensioni associate | RuleTypeId (UniqueId), DimensionDisplayName (FK) |
Richiesta di sottoscrizione dati | Informazioni su sottoscrittori dati, criteri applicati, stato della richiesta di sottoscrizione e altre informazioni rilevanti | SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK) |
Termine glossario | Informazioni sul termine del glossario, sulla descrizione e sullo stato complessivo del termine del glossario | GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Assegnazione del dominio business del termine glossario | Informazioni sull'assegnazione e sullo stato del dominio di governance del termine glossario | GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Assegnazione di elementi di dati critici per il termine glossario | Associazione del termine glossario con l'elemento dati critico | GlossaryTermId |
Assegnazione di prodotti per i dati del termine glossario | Informazioni sull'assegnazione del prodotto per i termini del glossario | GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Azione integrità | Informazioni sulla governance dei dati e sulle azioni di qualità dei dati | ActionId, TargetEntityId, CreatedByUserId |
Tipo di ricerca azione integrità | Azioni di integrità dei dati Ricerca dei tipi | FindingTypeId |
Sottotipo ricerca azione integrità | Azioni di integrità dei dati Ricerca di sottotipi | FindingSubTypeId, FindingTypeId |
Assegnazione utente azione integrità | Azioni di integrità dei dati Informazioni sull'assegnazione utente | ActionId, AssignedToUserId |
Risultato chiave | Risultato chiave dell'obiettivo del prodotto dati, inclusa la descrizione dei dettagli | ID risultato chiave, ID obiettivo |
Obiettivo | L'obiettivo del prodotto dati contiene ID obiettivo, descrizione oggettiva e stato obiettivo | ID obiettivo |
Responsabile approvazione set di criteri | Set di criteri e informazioni sul responsabile approvazione | SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK) |
Relazione | Informazioni sul tipo di origine e sulle informazioni di destinazione | AccountId, SourceId, TargetId |
Questo diagramma illustra la relazione di entità per il modello di dominio illustrata nella tabella precedente:
Sottoscrivere Unified Catalog metadati a Fabric OneLake
È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per l'analisi e derivare informazioni dettagliate seguendo questa procedura:
- Nel portale di Microsoft Purview selezionare Impostazioni, quindi selezionare Unified Catalog e quindi Integrazioni della soluzione (anteprima).
- Assicurarsi di avere il ruolo Data Governance Admininistrator (altre informazioni su ruoli e autorizzazioni).
- Selezionare Modifica.
- Aggiungere il tipo di archiviazione e abilitare l'installazione.
- Add Location URL (esempio:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- Selezionare Proprietà per copiare l'URL.
- Copiare l'URL dalla pagina Proprietà .
Aggiungere il nome della cartella alla fine dell'URL, ad esempio: /DEH (vedere lo screenshot)
Concedere agli utenti collaboratori l'accesso a Microsoft Purview Manage Service Identity (MSI) all'area di lavoro fabric.
Testare la connessione.
Selezionare Salva per salvare la configurazione per pubblicare i metadati di Purview nell'area di lavoro OneLake.
Creare un modello semantico in OneLake
Un modello semantico nel contesto di dati e analisi si riferisce a una rappresentazione strutturata dei dati che definisce il significato, le relazioni e le regole all'interno di un dominio specifico. Offre un livello di astrazione che consente agli utenti di comprendere e interagire con dati complessi rendendoli più intuitivi e accessibili, soprattutto nel contesto delle piattaforme di business intelligence e analisi. È sempre necessario un modello semantico prima di compilare qualsiasi report. All'interno del warehouse, un utente può aggiungere oggetti warehouse, ovvero tabelle o viste, al modello semantico di Power BI predefinito. Possono anche aggiungere altre proprietà di modellazione semantica, ad esempio gerarchie e descrizioni. Queste proprietà vengono quindi usate per creare le tabelle del modello semantico di Power BI. Gli utenti possono anche rimuovere oggetti dal modello semantico di Power BI predefinito.
Per creare un modello semantico dal modello di dominio dei metadati di Governance dei dati di Microsoft Purview:
Aprire Lakehouse nell'area di lavoro Fabric.
Usare il collegamento per creare un collegamento del modello di dominio da OneLake e all'interno di OneLake
- Selezionare il pulsante con i puntini di sospensione (...) delle tabelle
- Selezionare Nuovo collegamento e selezionare Microsoft OneLake nella pagina Nuove origini collegamento.
- Selezionare la tabella del modello di domini da collegamento
Creare un collegamento direttamente a livello di tabella per tutti i file, eliminando i record duplicati.
Dopo aver pubblicato tutti i file in tabelle delta tramite collegamento, è possibile aggiungere le tabelle delta al modello semantico.
- Passare alla pagina dell'endpoint di analisi SQL dalla pagina Lakehouse.
- Selezionare Report nell'angolo superiore sinistro della pagina dell'endpoint di analisi SQL .
- Selezionare Gestisci modello semantico predefinito.
- Selezionare le tabelle da dbo > Tables da aggiungere al modello semantico per la creazione di report.
Per aggiungere oggetti come tabelle o viste al modello semantico di Power BI predefinito, selezionare Aggiorna automaticamente il modello semantico.
Nota
È possibile fare clic con il pulsante destro del mouse per aggiungere tabelle correlate per creare una relazione.
Se si preferisce non sottoscrivere i metadati di eliminazione per l'analisi self-service, è possibile disabilitare manualmente l'analisi self-service (sottoscrizione di metadati): passare a Impostazioni > della soluzione Unified Catalog > Analisi self-service delle integrazioni > della soluzione e fare clic sull'interruttore per disabilitarla. È necessario il ruolo di amministratore della governance dei dati per abilitare e disabilitare questa funzionalità.
Sottoscrivere i metadati del catalogo Microsoft Purview per l'archiviazione AdlsG2
È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per pubblicare e archiviare nell'archiviazione AdlsG2 per l'analisi e derivare informazioni dettagliate seguendo questa procedura:
Nel portale di Microsoft Purview aprire Unified Catalog.
Selezionare Impostazioni nel riquadro di spostamento a sinistra, quindi in Impostazioni soluzione selezionare Unified Catalog.
Selezionare Integrazione soluzione, quindi selezionare Modifica.
Selezionare Tipo di archiviazione e Abilitato l'installazione.
Aggiungere l'URL del percorso, che deve essere percorso AdlsG2 + "/(nome contenitore)"
- Passare a portal.azure.com
- Selezionare l'archiviazione adlsg2 (Home > adlsg2)
- Passare a Impostazioni>Endpoint e selezionare Endpoint primario dell'archiviazione data lake.
Concedere l'accesso collaboratore ai dati dei BLOB di archiviazione a Microsoft Purview Manage Service Identity (MSI) al contenitore AdlsG2
Testare la connessione.
Selezionare Salva per salvare la configurazione per pubblicare il modello di dominio nell'archiviazione AdlsG2.
Esaminare il modello e i dati pubblicati
Apri portal.azure.com
Selezionare l'archiviazione adlsg2
selezionare il contenitore aggiunto con l'endpoint adlsg2 in Purview
Esplorare l'elenco dei file parquet delta pubblicati nel contenitore.
Esplorare il modello pubblicato e i metadati (vedere le immagini seguenti).
Creare un report di Power BI
Power BI è integrato in modo nativo nell'intera esperienza di Fabric. Questa integrazione nativa include una modalità univoca, denominata DirectLake, per l'accesso ai dati da Lakehouse per offrire l'esperienza di query e creazione di report più efficiente. DirectLake è una nuova rivoluzionaria funzionalità che consente di analizzare modelli semantici di grandi dimensioni in Power BI. Con DirectLake si caricano file in formato parquet direttamente da un data lake senza dover eseguire query su un data warehouse o un endpoint lakehouse e senza dover importare o duplicare dati in un modello semantico di Power BI. DirectLake è un percorso rapido per caricare i dati dal data lake direttamente nel motore di Power BI, pronto per l'analisi.
Nella modalità DirectQuery tradizionale, il motore di Power BI esegue direttamente query sui dati dall'origine per ogni esecuzione di query e le prestazioni della query dipendono dalla velocità di recupero dei dati. DirectQuery elimina la necessità di copiare i dati, assicurando che eventuali modifiche nell'origine vengano immediatamente riflesse nei risultati della query.
Per altri dettagli , seguire le linee guida: come creare un report di Power BI in Microsoft Fabric.
Configurare la pianificazione
Gli amministratori della governance dei dati possono configurare la pianificazione di aggiornamento dei metadati di analisi self-service seguendo questa procedura:
- Nel portale di Microsoft Purview aprire Unified Catalog.
- Selezionare Impostazioni nel riquadro di spostamento a sinistra, quindi in Impostazioni soluzione selezionare Unified Catalog.
- Selezionare Integrazione soluzione, quindi selezionare l'icona schedulare.
- In Pianifica analisi self-service attivare l'interruttore Abilitato e impostare la data di inizio, la frequenza e la data di fine.
- Seleziona Salva.
Cronologia processi
È possibile esplorare la cronologia processi facendo clic sull'icona Cronologia processi disponibile nella pagina di analisi self-service. È possibile filtrare lo stato del processo Completato o Non riuscito per un intervallo di date.
Importante
- Il ciclo di aggiornamento predefinito è ogni 24 ore.
- L'identità del servizio gestito di Purview richiede l'accesso come collaboratore all'area di lavoro di Fabric se si sottoscrivono i metadati di Microsoft Purview per la pubblicazione nell'area di lavoro di Fabric.
- L'identità del servizio gestito di Purview richiede l'accesso collaboratore ai dati del BLOB di archiviazione al Azure Data Lake Storage Gen2 se si sottoscrivono i metadati purview per la pubblicazione nel contenitore adlsg2.
- La pianificazione del processo di aggiornamento dei dati non è ancora supportata.
- Rete virtuale (vNet) non è ancora supportato.
- Stiamo pubblicando solo i dati degli asset regolamentati. Gli asset di dati associati a un prodotto dati sono classificati come asset regolamentati. Gli asset del mapping dei dati non regolamentati non verranno visualizzati nella tabella degli asset di dati di analisi self-service.
- Il controllo degli accessi in base al ruolo è stato implementato nel catalogo, assicurando che non tutti gli utenti possano visualizzare tutti i domini o i prodotti dati. Tuttavia, per l'analisi self-service, tutti i dati vengono pubblicati, consentendo a chiunque abbia accesso a questi dati di visualizzare l'intero catalogo. Il controllo di accesso per i metadati self-service dipende dalla posizione in cui vengono archiviati i dati, ovvero il proprietario dell'area di lavoro di Fabric o il proprietario dell'archiviazione di ADLS Gen2 può gestire l'accesso.
- Se si preferisce non sottoscrivere i metadati di eliminazione per l'analisi self-service, è possibile disabilitare manualmente l'analisi self-service (sottoscrizione di metadati): passare a Impostazioni > della soluzione Unified Catalog > Analisi self-service delle integrazioni > della soluzione e fare clic sull'interruttore per disabilitarla. È necessario il ruolo di amministratore della governance dei dati per abilitare e disabilitare questa funzionalità.