Condividi tramite


Analisi self-service e informazioni dettagliate (anteprima)

L'analisi self-service e le informazioni dettagliate si riferiscono a dati, strumenti e piattaforme che consentono agli utenti aziendali di accedere, analizzare e generare informazioni dettagliate dai dati in modo indipendente. L'applicazione di governance dei dati Microsoft Purview pubblica il modello di dominio dei metadati in Fabric OneLake e AdlsG2 (Azure Data Lake Storage), consentendo ai clienti di analizzare e generare informazioni dettagliate portando i propri strumenti e risorse di calcolo. L'analisi self-service dei metadati di governance dei dati è utile per favorire il miglioramento continuo della gestione dell'integrità dei data estate dei clienti e promuovere una cultura basata sui dati in tutta l'organizzazione democratizzando l'accesso alle informazioni dettagliate sulle proprietà dei dati e alla gestione della salute.

Componenti fondamentali

  • Modello di dati: modello 3NF con dettagli su domini e dimensioni
  • Metadati: Metadati di governance dei dati che includono:
    • Domini di governance
    • Prodotti dati
    • Asset di dati
    • Termini del glossario
    • Richiesta di sottoscrizione
    • Regole di qualità dei dati
    • Dimensioni
    • Dati relativi alla qualità dei dati (conteggio dei passaggi e degli errori)
    • Azioni di integrità dei dati (incluse le azioni sulla qualità dei dati)
    • e molti altri

Vantaggi

  • Emancipazione: Consente a professionisti dei dati, proprietari di prodotti dati, amministratori dei dati e analisti di esplorare i metadati di governance dei dati e collegare i metadati da varie origini per derivare informazioni dettagliate.
  • Flessibilità ed efficienza: Il cliente potrà creare report personalizzati oltre ai report predefiniti nella gestione dell'integrità.
  • Agilità: Consente alle organizzazioni dei clienti di rispondere più rapidamente ai problemi di gestione dell'integrità e alla correzione.
  • Conveniente: Riduce la necessità di configurare piattaforme e strumenti di compilazione. Tutti i dati sono disponibili in OneLake e il cliente potrà usare gli strumenti disponibili (modello semantico fabric, report PBI, flusso di dati e notebook) in OneLake.

Report attualmente disponibili (predefiniti)

Di seguito sono riportati i report predefiniti disponibili. Questi report non sono personalizzabili.

  • Asset classici : panoramica degli asset in base al tipo e alla raccolta e al relativo stato di cura.
  • Adozione classica del catalogo: per comprendere a colpo d'occhio come viene usato Unified Catalog. il glossario, fornendo uno snapshot dei termini e del relativo stato.
  • Classificazioni classiche : panoramica degli asset classificati e dei tipi di classificazioni.
  • Gestione dei dati classica : panoramica degli asset classificati e dei tipi di classificazioni.
  • Glossario classico : integrità e uso dei termini del glossario.
  • Etichette di riservatezza classiche : panoramica degli asset con etichette di riservatezza applicate e dei tipi di etichette applicati.
  • Governance dei dati : il report sull'integrità della governance dei dati consente al team di tenere traccia dello stato di avanzamento dell'integrità a colpo d'occhio e identificare le aree che richiedono più lavoro.
  • Integrità della qualità dei dati - Dimensioni della qualità dei dati e report sulle prestazioni delle regole di qualità dei dati.

Modello di dati per i metadati di analisi self-service

Il modello di dominio 3NF fa parte del processo di normalizzazione nella progettazione del database relazionale, che garantisce che il database sia privo di ridondanza e anomalie di aggiornamento. Uno schema di database si trova nella terza forma normale se soddisfa i requisiti della prima e della seconda Forms normale e tutti i relativi attributi dipendono funzionalmente solo dalla chiave primaria. Lo scopo del modello di dominio 3NF viene usato per strutturare i dati in modo da ridurre al minimo la duplicazione e garantire l'integrità dei dati. Si concentra sulla suddivisione dei dati in tabelle correlate più piccole in cui ogni informazione viene archiviata una sola volta.

Caratteristiche:

  • Eliminazione delle dipendenze transitive: gli attributi non chiave non devono dipendere da altri attributi non chiave.
  • Raggruppamento logico: i dati sono raggruppati logicamente in domini in base alla funzione o al significato.
  • Entity-Relationship Diagrams (ERD): comunemente usato per rappresentare i modelli di dominio 3NF, che mostrano come le entità sono correlate tra loro.
Nome di tabella Elementi archiviati nella tabella Chiavi di relazione
Stato provisioning dei criteri di accesso Informazioni sullo stato di provisioning ProvisioningStateId
Tipo di risorsa criteri di accesso Accedere alle informazioni sulle risorse porlich ResourceTypeId
Set di criteri di accesso Informazioni generali sui criteri di accesso, sui dettagli dei casi di utilizzo dei criteri e sulla posizione in cui i criteri ne hanno applicato uno AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK)
Dominio aziendale Dettagli relativi a nome di dominio aziendale, descrizione, stato e proprietà ID dominio business padre (FK), creato dall'ID utente (FK), ultima modifica dall'ID utente (FK)
Classificazione Informazioni sulla classificazione degli asset di dati ClassificationId
Elemento dati critico Elemenent di dati critici degli asset di dati ID elemento dati critico
Caso d'uso dell'accesso personalizzato Accedere alle informazioni sui casi d'uso AccessPolicySetId
Asset di dati Nome dell'asset di dati, descrizione e informazioni di origine DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Colonna asset di dati Nome della colonna dell'asset di dati, descrizione della colonna e riferimenti DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created by User ID (FK), Last Modified By User ID (FK)
Assegnazione classificazione colonna asset di dati Chiavi di riferimento correlate all'assegnazione della classificazione dei dati DataAssetId (FK), ColumnId (FK), ClassificationId (FK)
Assegnazione di elementi di dati critici della colonna asset di dati Associazione della colonna dell'asset di dati all'elemento dati critico ColumnId
Assegnazione di dominio asset di dati Informazioni correlate all'assegnazione di domini di governance degli asset di dati DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Proprietario dell'asset di dati Informazioni sul proprietario dell'asset di dati DataAssetOwnerId
Assegnazione del proprietario di asset di dati Informazioni sull'assegnazione del proprietario dell'asset di dati DataAssetId, DataAssetOwnerId
Tipo di dati tipo di asset di dati Informazioni sul tipo di asset di dati DataTypeId (UniqueId), DataAssetTypeId (FK)
Prodotto dati Nome del prodotto dati, descrizione, casi d'uso, stato e altre informazioni rilevanti DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Assegnazione di asset di prodotto dati Informazioni sull'assegnazione di prodotti dati e asset di dati DataProductId, DataAssetId
Assegnazione di dominio business del prodotto dati Informazioni sull'assegnazione di domini di prodotto e governance dei dati DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Assegnazione di elementi dati critici del prodotto dati Assegnazione di elementi dati critici al prodotto dati DataProductId
Documentazione del prodotto dati Le informazioni di riferimento sulla documentazione del prodotto dati vengono archiviate in questa tabella. DataProductId, DocumentationId
Assegnazione OKR prodotto dati Obiettivi assinged e risultati chiave per il prodotto dati ID prodotto dati, ID obiettivo, ID risultato chiave
Proprietario del prodotto dati Informazioni sul proprietario del prodotto dati DataProductId, DataProductOwnerId
Stato prodotto dati Informazioni relative allo stato del prodotto dati (ad esempio pubblicate o bozza) DataProductStatusId
Condizioni per l'utilizzo del prodotto dati Informazioni sui termini di utilizzo dei prodotti dati DataProductId, TermOfUsedId, DataAssetId
Tipo di prodotto dati Informazioni sui tipi di prodotto dati, ad esempio master, riferimento o operativo DataProductTypeId
Frequenza di aggiornamento del prodotto dati Informazioni sulla frequenza di aggiornamento dei dati di questo prodotto dati UpdateFrequencyId
Esecuzione della regola asset di qualità dei dati Risultati dell'analisi della qualità dei dati RuleId (FK), DataAssetId (FK), JobExecutionId (FK)
Esecuzione del processo data quality Stato di esecuzione del processo di qualità dei dati JobExecutionId (UniqueId)
Regola di qualità dei dati Informazioni sulle regole di qualità dei dati RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Esecuzione della colonna della regola data quality Informazioni sulle regole di qualità dei dati superati e non riusciti, sul punteggio di qualità dei dati a livello di colonne e sui dettagli di esecuzione del processo di qualità dei dati RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK)
Tipo di regola data quality Tipo di regola di qualità dei dati e dimensioni associate RuleTypeId (UniqueId), DimensionDisplayName (FK)
Richiesta di sottoscrizione dati Informazioni su sottoscrittori dati, criteri applicati, stato della richiesta di sottoscrizione e altre informazioni rilevanti SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK)
Termine glossario Informazioni sul termine del glossario, sulla descrizione e sullo stato complessivo del termine del glossario GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Assegnazione del dominio business del termine glossario Informazioni sull'assegnazione e sullo stato del dominio di governance del termine glossario GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Assegnazione di elementi di dati critici per il termine glossario Associazione del termine glossario con l'elemento dati critico GlossaryTermId
Assegnazione di prodotti per i dati del termine glossario Informazioni sull'assegnazione del prodotto per i termini del glossario GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Azione integrità Informazioni sulla governance dei dati e sulle azioni di qualità dei dati ActionId, TargetEntityId, CreatedByUserId
Tipo di ricerca azione integrità Azioni di integrità dei dati Ricerca dei tipi FindingTypeId
Sottotipo ricerca azione integrità Azioni di integrità dei dati Ricerca di sottotipi FindingSubTypeId, FindingTypeId
Assegnazione utente azione integrità Azioni di integrità dei dati Informazioni sull'assegnazione utente ActionId, AssignedToUserId
Risultato chiave Risultato chiave dell'obiettivo del prodotto dati, inclusa la descrizione dei dettagli ID risultato chiave, ID obiettivo
Obiettivo L'obiettivo del prodotto dati contiene ID obiettivo, descrizione oggettiva e stato obiettivo ID obiettivo
Responsabile approvazione set di criteri Set di criteri e informazioni sul responsabile approvazione SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK)
Relazione Informazioni sul tipo di origine e sulle informazioni di destinazione AccountId, SourceId, TargetId

Questo diagramma illustra la relazione di entità per il modello di dominio illustrata nella tabella precedente: Screenshot per esplorare ERD.

Sottoscrivere Unified Catalog metadati a Fabric OneLake

È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per l'analisi e derivare informazioni dettagliate seguendo questa procedura:

  1. Nel portale di Microsoft Purview selezionare Impostazioni, quindi selezionare Unified Catalog e quindi Integrazioni della soluzione (anteprima).
  2. Assicurarsi di avere il ruolo Data Governance Admininistrator (altre informazioni su ruoli e autorizzazioni).
  3. Selezionare Modifica.
  4. Aggiungere il tipo di archiviazione e abilitare l'installazione.
  5. Add Location URL (esempio: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)
    • Selezionare Proprietà per copiare l'URL.

Screenshot che mostra come configurare l'URL dell'infrastruttura 1.

  • Copiare l'URL dalla pagina Proprietà .

Screenshot che mostra come configurare l'URL dell'infrastruttura 2.

  1. Aggiungere il nome della cartella alla fine dell'URL, ad esempio: /DEH (vedere lo screenshot)

  2. Concedere agli utenti collaboratori l'accesso a Microsoft Purview Manage Service Identity (MSI) all'area di lavoro fabric.

  3. Testare la connessione.

    Screenshot che mostra come configurare la connessione alla sottoscrizione.

  4. Selezionare Salva per salvare la configurazione per pubblicare i metadati di Purview nell'area di lavoro OneLake.

Creare un modello semantico in OneLake

Un modello semantico nel contesto di dati e analisi si riferisce a una rappresentazione strutturata dei dati che definisce il significato, le relazioni e le regole all'interno di un dominio specifico. Offre un livello di astrazione che consente agli utenti di comprendere e interagire con dati complessi rendendoli più intuitivi e accessibili, soprattutto nel contesto delle piattaforme di business intelligence e analisi. È sempre necessario un modello semantico prima di compilare qualsiasi report. All'interno del warehouse, un utente può aggiungere oggetti warehouse, ovvero tabelle o viste, al modello semantico di Power BI predefinito. Possono anche aggiungere altre proprietà di modellazione semantica, ad esempio gerarchie e descrizioni. Queste proprietà vengono quindi usate per creare le tabelle del modello semantico di Power BI. Gli utenti possono anche rimuovere oggetti dal modello semantico di Power BI predefinito.

Per creare un modello semantico dal modello di dominio dei metadati di Governance dei dati di Microsoft Purview:

  1. Aprire Lakehouse nell'area di lavoro Fabric.

  2. Usare il collegamento per creare un collegamento del modello di dominio da OneLake e all'interno di OneLake

    1. Selezionare il pulsante con i puntini di sospensione (...) delle tabelle
    2. Selezionare Nuovo collegamento e selezionare Microsoft OneLake nella pagina Nuove origini collegamento.
    3. Selezionare la tabella del modello di domini da collegamento

    Screenshot che mostra come pubblicare in una tabella differenziale tramite collegamento.

  3. Creare un collegamento direttamente a livello di tabella per tutti i file, eliminando i record duplicati.

    Screenshot che mostra come creare un collegamento a livello di tabella.

Dopo aver pubblicato tutti i file in tabelle delta tramite collegamento, è possibile aggiungere le tabelle delta al modello semantico.

  1. Passare alla pagina dell'endpoint di analisi SQL dalla pagina Lakehouse.
  2. Selezionare Report nell'angolo superiore sinistro della pagina dell'endpoint di analisi SQL .
  3. Selezionare Gestisci modello semantico predefinito.
  4. Selezionare le tabelle da dbo > Tables da aggiungere al modello semantico per la creazione di report.

Screenshot che mostra come aggiungere manualmente una tabella al modello semantico.

Per aggiungere oggetti come tabelle o viste al modello semantico di Power BI predefinito, selezionare Aggiorna automaticamente il modello semantico.

Screenshot che mostra il modello semantico di analisi self-service.

Nota

  • È possibile fare clic con il pulsante destro del mouse per aggiungere tabelle correlate per creare una relazione.

  • Se si preferisce non sottoscrivere i metadati di eliminazione per l'analisi self-service, è possibile disabilitare manualmente l'analisi self-service (sottoscrizione di metadati): passare a Impostazioni > della soluzione Unified Catalog > Analisi self-service delle integrazioni > della soluzione e fare clic sull'interruttore per disabilitarla. È necessario il ruolo di amministratore della governance dei dati per abilitare e disabilitare questa funzionalità.

Sottoscrivere i metadati del catalogo Microsoft Purview per l'archiviazione AdlsG2

È possibile sottoscrivere i metadati di governance dei dati di Microsoft Purview per pubblicare e archiviare nell'archiviazione AdlsG2 per l'analisi e derivare informazioni dettagliate seguendo questa procedura:

  1. Nel portale di Microsoft Purview aprire Unified Catalog.

  2. Selezionare Impostazioni nel riquadro di spostamento a sinistra, quindi in Impostazioni soluzione selezionare Unified Catalog.

  3. Selezionare Integrazione soluzione, quindi selezionare Modifica.

  4. Selezionare Tipo di archiviazione e Abilitato l'installazione.

  5. Aggiungere l'URL del percorso, che deve essere percorso AdlsG2 + "/(nome contenitore)"

    1. Passare a portal.azure.com
    2. Selezionare l'archiviazione adlsg2 (Home > adlsg2)
    3. Passare a Impostazioni>Endpoint e selezionare Endpoint primario dell'archiviazione data lake.
  6. Concedere l'accesso collaboratore ai dati dei BLOB di archiviazione a Microsoft Purview Manage Service Identity (MSI) al contenitore AdlsG2

  7. Testare la connessione.

    Esplorare il modello

  8. Selezionare Salva per salvare la configurazione per pubblicare il modello di dominio nell'archiviazione AdlsG2.

Esaminare il modello e i dati pubblicati

  1. Apri portal.azure.com

  2. Selezionare l'archiviazione adlsg2

  3. selezionare il contenitore aggiunto con l'endpoint adlsg2 in Purview

  4. Esplorare l'elenco dei file parquet delta pubblicati nel contenitore.

  5. Esplorare il modello pubblicato e i metadati (vedere le immagini seguenti).

    Screenshot che mostra come configurare la connessione alla sottoscrizione nel contenitore adlsg2.

    Esplorare i file del modello

Creare un report di Power BI

Power BI è integrato in modo nativo nell'intera esperienza di Fabric. Questa integrazione nativa include una modalità univoca, denominata DirectLake, per l'accesso ai dati da Lakehouse per offrire l'esperienza di query e creazione di report più efficiente. DirectLake è una nuova rivoluzionaria funzionalità che consente di analizzare modelli semantici di grandi dimensioni in Power BI. Con DirectLake si caricano file in formato parquet direttamente da un data lake senza dover eseguire query su un data warehouse o un endpoint lakehouse e senza dover importare o duplicare dati in un modello semantico di Power BI. DirectLake è un percorso rapido per caricare i dati dal data lake direttamente nel motore di Power BI, pronto per l'analisi.

Nella modalità DirectQuery tradizionale, il motore di Power BI esegue direttamente query sui dati dall'origine per ogni esecuzione di query e le prestazioni della query dipendono dalla velocità di recupero dei dati. DirectQuery elimina la necessità di copiare i dati, assicurando che eventuali modifiche nell'origine vengano immediatamente riflesse nei risultati della query.

Per altri dettagli , seguire le linee guida: come creare un report di Power BI in Microsoft Fabric.

Configurare la pianificazione

Gli amministratori della governance dei dati possono configurare la pianificazione di aggiornamento dei metadati di analisi self-service seguendo questa procedura:

  1. Nel portale di Microsoft Purview aprire Unified Catalog.
  2. Selezionare Impostazioni nel riquadro di spostamento a sinistra, quindi in Impostazioni soluzione selezionare Unified Catalog.
  3. Selezionare Integrazione soluzione, quindi selezionare l'icona schedulare.
  4. In Pianifica analisi self-service attivare l'interruttore Abilitato e impostare la data di inizio, la frequenza e la data di fine.
  5. Seleziona Salva.

Cronologia processi

È possibile esplorare la cronologia processi facendo clic sull'icona Cronologia processi disponibile nella pagina di analisi self-service. È possibile filtrare lo stato del processo Completato o Non riuscito per un intervallo di date.

Screenshot che mostra l'elenco dello stato del processo.

Importante

  • Il ciclo di aggiornamento predefinito è ogni 24 ore.
  • L'identità del servizio gestito di Purview richiede l'accesso come collaboratore all'area di lavoro di Fabric se si sottoscrivono i metadati di Microsoft Purview per la pubblicazione nell'area di lavoro di Fabric.
  • L'identità del servizio gestito di Purview richiede l'accesso collaboratore ai dati del BLOB di archiviazione al Azure Data Lake Storage Gen2 se si sottoscrivono i metadati purview per la pubblicazione nel contenitore adlsg2.
  • La pianificazione del processo di aggiornamento dei dati non è ancora supportata.
  • Rete virtuale (vNet) non è ancora supportato.
  • Stiamo pubblicando solo i dati degli asset regolamentati. Gli asset di dati associati a un prodotto dati sono classificati come asset regolamentati. Gli asset del mapping dei dati non regolamentati non verranno visualizzati nella tabella degli asset di dati di analisi self-service.
  • Il controllo degli accessi in base al ruolo è stato implementato nel catalogo, assicurando che non tutti gli utenti possano visualizzare tutti i domini o i prodotti dati. Tuttavia, per l'analisi self-service, tutti i dati vengono pubblicati, consentendo a chiunque abbia accesso a questi dati di visualizzare l'intero catalogo. Il controllo di accesso per i metadati self-service dipende dalla posizione in cui vengono archiviati i dati, ovvero il proprietario dell'area di lavoro di Fabric o il proprietario dell'archiviazione di ADLS Gen2 può gestire l'accesso.
  • Se si preferisce non sottoscrivere i metadati di eliminazione per l'analisi self-service, è possibile disabilitare manualmente l'analisi self-service (sottoscrizione di metadati): passare a Impostazioni > della soluzione Unified Catalog > Analisi self-service delle integrazioni > della soluzione e fare clic sull'interruttore per disabilitarla. È necessario il ruolo di amministratore della governance dei dati per abilitare e disabilitare questa funzionalità.