Sezione 2: Configurare e registrare i dati
Se non sono disponibili origini dati per l'analisi, è possibile seguire questa procedura per distribuire completamente un esempio di Azure Data Lake Stroage (ADLS Gen2).
Consiglio
Se si dispone già di un'origine dati nello stesso tenant dell'account Microsoft Purview, passare alla parte successiva di questa sezione per analizzare gli asset.
In un'area dati reale sono disponibili molti sistemi diversi in uso per applicazioni dati diverse. Esistono ambienti di creazione di report come Fabric e Snowflake in cui i team usano copie dei dati per creare soluzioni analitiche e alimentare i report e i dashboard. Esistono sistemi dati operativi che alimentano i team o i clienti delle applicazioni per completare i processi aziendali che raccolgono o aggiungono dati in base alle decisioni prese durante il processo.
Per creare un patrimonio dati più realistico, è consigliabile mostrare molte origini di dati nel catalogo, che possono coprire l'ampiezza di dati diversi che qualsiasi azienda potrebbe avere. I tipi di dati necessari per alimentare un caso d'uso possono essere molto diversi con gli utenti aziendali che necessitano di report e dashboard, gli analisti hanno bisogno di dimensioni e fatti conformi per compilare report, i data scientist o i data engineer hanno bisogno di dati di origine non elaborati provenienti direttamente dal sistema che raccoglie i dati tutti questi e più consentono ai diversi utenti di vedere l'importanza della ricerca, e l'accesso ai dati nella stessa posizione.
Per altre esercitazioni sull'aggiunta di dati al patrimonio, è possibile seguire queste guide:
- Esercitazione su Fabric Lakehouse : fornisce la base di un ambiente di creazione di report
- database Azure SQL (esempio): fornisce un esempio ben strutturato di un archivio dati operativo
Prerequisiti
- Sottoscrizione in Azure: Creare oggi l'account gratuito di Azure
- Microsoft Entra ID per il tenant: Microsoft Entra ID Governance
- Un account Microsoft Purview
- Amministrazione l'accesso all'account Microsoft Purview (impostazione predefinita se è stato creato l'account Microsoft Purview). Autorizzazioni nella nuova anteprima del portale di Microsoft Purview | Microsoft Learn)
- Tutte le risorse; Microsoft Purview, l'origine dati e Microsoft Entra ID devono trovarsi nello stesso tenant cloud.
Passaggi per configurare il patrimonio dati
Creare e popolare un account di archiviazione
- Seguire questa guida per creare un account di archiviazione: Creare un account di archiviazione per Azure Data Lake Storage Gen2
- Creare contenitori per il nuovo data lake:
- Passare alla pagina Panoramica dell'account di archiviazione.
- Selezionare la scheda Contenitori nella sezione Archiviazione dati.
- Selezionare il pulsante + Contenitore
- Assegnare il nome "bronze" e selezionare il pulsante Crea
- Ripetere questi passaggi per creare un contenitore "gold"
- Scaricare alcuni dati CSV di esempio da data.gov: covid-19 vaccinazione e tendenze dei casi per fascia di età, Stati Uniti
- Caricare il file CSV nel contenitore denominato 'bronze' nell'account di archiviazione creato.
- Selezionare il contenitore denominato 'bronze' e selezionare il pulsante Carica .
- Esplorare il percorso in cui è stato salvato il file CSV e selezionare il file Covid-19_Vaccination_Case _Trends .
- Scegliere Carica.
Creare un Azure Data Factory
Questo passaggio illustra il modo in cui i dati si spostano tra i livelli di un data lake di medallion e garantisce che i dati siano in un formato standardizzato che i consumer si aspetterebbero di usare. Si tratta di un passaggio prerequisito per l'esecuzione di Data Quality.
Seguire questa guida per creare un Azure Data Factory: Creare un Azure Data Factory
Copiare i dati dal file CSV nel contenitore 'bronze' nel contenitore 'gold' come tabella di formato Delta usando questa guida Azure Data Factory: Trasformare i dati usando un flusso di dati di mapping
Aprire l'esperienza Azure Data Factory (ADF) dal portale di Azure selezionando il pulsante Avvia studio nella scheda Panoramica della risorsa ADF creata.
Selezionare la scheda Autore in ADF Studio.
Selezionare il + pulsante e scegliere Flusso di dati dal menu a discesa.
Assegnare al flusso di dati il nome 'CSVtoDeltaC19VaxTrends'.
Selezionare Aggiungi origine nella casella vuota.
Impostare Le impostazioni di origine su:
- Nome flusso di output: 'C19csv'
- Descrizione: lasciare vuoto
- Tipo di origine: inline
- Tipo di set di dati inline: testo delimitato
- Servizio collegato: selezionare il data lake in cui è stato archiviato il csv
Impostare le opzioni di origine su:
- Modalità file: File
- Percorso file: /bronze/ Covid-19_Vaccination_Case _Trends
- Consenti nessun file trovato: lasciare deselezionato
- Change data capture( Modifica acquisizione dati): lasciare deselezionata
- Tipo di compressione: Nessuno
- Codifica: predefinita (UTF-8)
- Delimitatore di colonna: virgola (,)
- Delimitatore di riga: Predefinito(\r, \n o\r\n)
- Carattere virgolette: virgolette doppie (")
- Carattere di escape: barra rovesciata ()
- Prima riga come intestazione: CHECKED
- Lasciare il resto come impostazioni predefinite
Selezionare il piccolo + Accanto all'origine creata e selezionare Sink
Creare il sink in cui vengono archiviati il formato e la posizione dei dati da archiviare per spostare i dati da un csv in 'bronze' a una tabella delta in 'gold'.
- Impostare i valori sink (lasciare tutte le impostazioni come predefinite se non specificato)
- Tipo di sink: inline
- Tipo di set di dati inline: Delta
- Servizio collegato: lo stesso data lake usato nell'origine, perché verrà archiviato in un contenitore diverso.
Impostare i valori dell'impostazione (lasciare tutte le impostazioni predefinite, se non specificato)
- Percorso cartella: gold/Covid19 Vaccine and Case Trends
È necessario immettere il valore perché questo nome è il modo in cui si desidera archiviare i dati e non esiste da selezionare.
Selezionare Convalida, in questo modo viene controllato il flusso di dati e vengono fornite istruzioni per correggere eventuali errori.
Selezionare Pubblica tutto.
Selezionare il + pulsante e selezionare pipeline dal menu a discesa
Assegnare alla pipeline il nome "CSV to Delta C19 Vax Trends"
Selezionare il flusso di dati creato nei passaggi precedenti da CSV a Delta (C19VaxTrends) e trascinarlo nella scheda della pipeline aperta.
Selezionare Convalida
Selezionare Pubblica
Selezionare Debug (usa runtime attività) per eseguire la pipeline.
Consiglio
Se si verificano errori per spazi o caratteri inappropriati per il formato differenziale: aprire il file CSV scaricato e apportare correzioni. Ricaricare quindi e sovrascrivere il volume CSV nella zona bronzea. Eseguire quindi di nuovo la pipeline.
Passare al contenitore gold nel data lake e verrà ora visualizzata la nuova tabella Delta creata durante la pipeline.
Analizzare gli asset
Se non sono stati analizzati gli asset di dati nel Microsoft Purview Data Map, è possibile seguire questa procedura per popolare la mappa dati.
L'analisi delle origini nel patrimonio dati raccoglierà automaticamente i metadati degli asset di dati (tabelle, file, cartelle, report e così via) in tali origini. Registrando un'origine dati e creando l'analisi, si stabilisce la proprietà tecnica delle origini e degli asset visualizzati nel catalogo e si garantisce di avere il controllo su chi può accedere ai metadati in Microsoft Purview. Registrando e archiviando origini e asset a livello di dominio, verrà archiviato al livello più alto della gerarchia di accesso. In genere è consigliabile creare alcune raccolte in cui si analizzano i metadati degli asset e si stabilisce la gerarchia di accesso corretta per tali dati.
-
Fornire l'accesso lettore per l'identità gestita di Microsoft Purview (MSI) al data lake o a un altro archivio dati.
Consiglio
L'identità del servizio gestito è il nome dell'account dell'istanza di Microsoft Purview.
Se si è scelto di usare Microsoft Fabric o SQL, è possibile usare queste guide per fornire l'accesso:
Registrare il data lake e analizzare gli asset
In Microsoft Purview Data Map nella scheda domini selezionare le assegnazioni di ruolo per il dominio (sarà il nome dell'account Microsoft Purview):
- Aggiungere se stessi come amministratore dell'origine dati e come curatore dei dati al dominio.
- Selezionare l'icona della persona accanto al ruolo Amministratore origine dati.
- Cerca il tuo nome così com'è in Microsoft Entra ID (potrebbe essere necessario immettere il nome completo digitato esattamente come è in Microsoft Entra ID).
- Selezionare OK.
- Ripetere questi passaggi per il curatore dei dati.
- Aggiungere se stessi come amministratore dell'origine dati e come curatore dei dati al dominio.
Registrare il data lake:
- Selezionare la scheda Origini dati .
- Selezionare Registra.
- Selezionare il tipo di archiviazione Azure Data Lake Storage Gen2.
Specificare i dettagli per la connessione:
- Sottoscrizione (facoltativa)
- Nome origine dati (questo sarà il nome dell'origine ADLS Gen2)
- Raccolta in cui archiviare i metadati degli asset (facoltativo)
- Selezionare Registra
Al termine della registrazione dell'origine dati, è possibile configurare l'analisi. La registrazione indica che Microsoft Purview è connesso all'origine dati e lo ha inserito nella raccolta corretta per la proprietà. L'analisi leggerà quindi i metadati dall'origine e popola gli asset nella mappa dati.
Selezionare l'origine registrata nella scheda Origini dati
Selezionare una nuova analisi e specificare i dettagli:
- Usare il runtime di integrazione predefinito per questa analisi
- Le credenziali devono essere Microsoft Purview MSI (system)
- Il livello di analisi è Rilevamento automatico
- Selezionare una raccolta o usare il dominio (la raccolta deve essere la stessa raccolta o la stessa raccolta figlio di in cui è stata registrata l'origine dati)
- Selezionare Continua
Consiglio
A questo punto Microsoft Purview testerà la connessione per verificare che sia possibile eseguire un'analisi. Se non è stato concesso l'accesso al lettore MSI di Microsoft Purview nell'origine dati, l'operazione avrà esito negativo. Se non si è il proprietario dell'origine dati o si dispone di un collaboratore per l'accesso utente, l'analisi avrà esito negativo perché si prevede di avere l'autorizzazione per creare la connessione.
Selezionare ora solo il contenitore "gold" in cui è stata inserita la tabella delta nella sezione dei dati di compilazione dell'esercitazione. Ciò impedirà l'analisi di eventuali altri asset di dati presenti nell'archivio dati.
- Dovrebbe avere un solo assegno blu accanto all'oro, è possibile lasciare i controlli accanto a tutto perché analizzerà l'origine completa e creerà comunque gli asset che useremo e altro ancora.
- Selezionare Continua
Nella schermata selezionare un set di regole di analisi è consigliabile usare il set di regole di analisi predefinito.
Selezionare Continua
In impostare un trigger di analisi si imposterà la frequenza dell'analisi in modo da continuare ad aggiungere asset di dati al contenitore gold del lago che continuerà a popolare la mappa dati. Selezionare Una volta.
Selezionare Continua.
Selezionare Salva ed esegui. Verrà creata un'analisi che leggerà solo i metadati dal contenitore gold del data lake e popola la tabella che verrà usata nella Microsoft Purview Data Catalog nelle sezioni successive. Se si seleziona solo Salva, l'analisi non verrà eseguita e gli asset non verranno visualizzati. Dopo l'esecuzione dell'analisi, verrà visualizzata l'analisi creata con lo stato Ultima esecuzionein coda. Quando le letture dell'analisi completano gli asset sono pronti per la sezione successiva. Questa operazione potrebbe richiedere alcuni minuti o ore a seconda del numero di asset presenti nell'origine.