Condividi tramite


Sezione 2: Configurare e registrare i dati

Se non sono disponibili origini dati per l'analisi, è possibile seguire questa procedura per distribuire completamente un esempio di Azure Data Lake Stroage (ADLS Gen2).

Consiglio

Se si dispone già di un'origine dati nello stesso tenant dell'account Microsoft Purview, passare alla parte successiva di questa sezione per analizzare gli asset.

In un'area dati reale sono disponibili molti sistemi diversi in uso per applicazioni dati diverse. Esistono ambienti di creazione di report come Fabric e Snowflake in cui i team usano copie dei dati per creare soluzioni analitiche e alimentare i report e i dashboard. Esistono sistemi dati operativi che alimentano i team o i clienti delle applicazioni per completare i processi aziendali che raccolgono o aggiungono dati in base alle decisioni prese durante il processo.

Per creare un patrimonio dati più realistico, è consigliabile mostrare molte origini di dati nel catalogo, che possono coprire l'ampiezza di dati diversi che qualsiasi azienda potrebbe avere. I tipi di dati necessari per alimentare un caso d'uso possono essere molto diversi con gli utenti aziendali che necessitano di report e dashboard, gli analisti hanno bisogno di dimensioni e fatti conformi per compilare report, i data scientist o i data engineer hanno bisogno di dati di origine non elaborati provenienti direttamente dal sistema che raccoglie i dati tutti questi e più consentono ai diversi utenti di vedere l'importanza della ricerca, e l'accesso ai dati nella stessa posizione.

Per altre esercitazioni sull'aggiunta di dati al patrimonio, è possibile seguire queste guide:

Prerequisiti

  • Sottoscrizione in Azure: Creare oggi l'account gratuito di Azure
  • Microsoft Entra ID per il tenant: Microsoft Entra ID Governance
  • Un account Microsoft Purview
    • Amministrazione l'accesso all'account Microsoft Purview (impostazione predefinita se è stato creato l'account Microsoft Purview). Autorizzazioni nella nuova anteprima del portale di Microsoft Purview | Microsoft Learn)
  • Tutte le risorse; Microsoft Purview, l'origine dati e Microsoft Entra ID devono trovarsi nello stesso tenant cloud.

Passaggi per configurare il patrimonio dati

Creare e popolare un account di archiviazione

  1. Seguire questa guida per creare un account di archiviazione: Creare un account di archiviazione per Azure Data Lake Storage Gen2
  2. Creare contenitori per il nuovo data lake:
    1. Passare alla pagina Panoramica dell'account di archiviazione.
    2. Selezionare la scheda Contenitori nella sezione Archiviazione dati.
    3. Selezionare il pulsante + Contenitore
    4. Assegnare il nome "bronze" e selezionare il pulsante Crea
    5. Ripetere questi passaggi per creare un contenitore "gold"
  3. Scaricare alcuni dati CSV di esempio da data.gov: covid-19 vaccinazione e tendenze dei casi per fascia di età, Stati Uniti
  4. Caricare il file CSV nel contenitore denominato 'bronze' nell'account di archiviazione creato.
  5. Selezionare il contenitore denominato 'bronze' e selezionare il pulsante Carica .
  6. Esplorare il percorso in cui è stato salvato il file CSV e selezionare il file Covid-19_Vaccination_Case _Trends .
  7. Scegliere Carica.

Creare un Azure Data Factory

Questo passaggio illustra il modo in cui i dati si spostano tra i livelli di un data lake di medallion e garantisce che i dati siano in un formato standardizzato che i consumer si aspetterebbero di usare. Si tratta di un passaggio prerequisito per l'esecuzione di Data Quality.

  1. Seguire questa guida per creare un Azure Data Factory: Creare un Azure Data Factory

  2. Copiare i dati dal file CSV nel contenitore 'bronze' nel contenitore 'gold' come tabella di formato Delta usando questa guida Azure Data Factory: Trasformare i dati usando un flusso di dati di mapping

  3. Aprire l'esperienza Azure Data Factory (ADF) dal portale di Azure selezionando il pulsante Avvia studio nella scheda Panoramica della risorsa ADF creata.

    Screenshot dell'avvio di ADF Studio da portale di Azure.

  4. Selezionare la scheda Autore in ADF Studio.

    Screenshot dell'autore selezionato nel menu di spostamento a sinistra di Azure Data Factory.

  5. Selezionare il + pulsante e scegliere Flusso di dati dal menu a discesa.

    Screenshot del pulsante per creare un flusso di dati.

  6. Assegnare al flusso di dati il nome 'CSVtoDeltaC19VaxTrends'.

  7. Selezionare Aggiungi origine nella casella vuota.

    Screenshot dell'aggiunta di un'origine dati per il flusso di dati.

  8. Impostare Le impostazioni di origine su:

    1. Nome flusso di output: 'C19csv'
    2. Descrizione: lasciare vuoto
    3. Tipo di origine: inline
    4. Tipo di set di dati inline: testo delimitato
    5. Servizio collegato: selezionare il data lake in cui è stato archiviato il csv
  9. Impostare le opzioni di origine su:

    1. Modalità file: File
    2. Percorso file: /bronze/ Covid-19_Vaccination_Case _Trends
    3. Consenti nessun file trovato: lasciare deselezionato
    4. Change data capture( Modifica acquisizione dati): lasciare deselezionata
    5. Tipo di compressione: Nessuno
    6. Codifica: predefinita (UTF-8)
    7. Delimitatore di colonna: virgola (,)
    8. Delimitatore di riga: Predefinito(\r, \n o\r\n)
    9. Carattere virgolette: virgolette doppie (")
    10. Carattere di escape: barra rovesciata ()
    11. Prima riga come intestazione: CHECKED
    12. Lasciare il resto come impostazioni predefinite
  10. Selezionare il piccolo + Accanto all'origine creata e selezionare Sink

    Screenshot della creazione di un sink per il flusso di dati.

  11. Creare il sink in cui vengono archiviati il formato e la posizione dei dati da archiviare per spostare i dati da un csv in 'bronze' a una tabella delta in 'gold'.

    1. Impostare i valori sink (lasciare tutte le impostazioni come predefinite se non specificato)
    2. Tipo di sink: inline
    3. Tipo di set di dati inline: Delta
    4. Servizio collegato: lo stesso data lake usato nell'origine, perché verrà archiviato in un contenitore diverso.
  12. Impostare i valori dell'impostazione (lasciare tutte le impostazioni predefinite, se non specificato)

    1. Percorso cartella: gold/Covid19 Vaccine and Case Trends
  13. È necessario immettere il valore perché questo nome è il modo in cui si desidera archiviare i dati e non esiste da selezionare.

  14. Selezionare Convalida, in questo modo viene controllato il flusso di dati e vengono fornite istruzioni per correggere eventuali errori.

  15. Selezionare Pubblica tutto.

    Screenshot della pubblicazione del flusso di dati.

  16. Selezionare il + pulsante e selezionare pipeline dal menu a discesa

    Screenshot della creazione di una pipeline.

  17. Assegnare alla pipeline il nome "CSV to Delta C19 Vax Trends"

  18. Selezionare il flusso di dati creato nei passaggi precedenti da CSV a Delta (C19VaxTrends) e trascinarlo nella scheda della pipeline aperta.

  19. Selezionare Convalida

  20. Selezionare Pubblica

  21. Selezionare Debug (usa runtime attività) per eseguire la pipeline.

    Screenshot dell'esecuzione della pipeline per creare una tabella differenziale.

    Consiglio

    Se si verificano errori per spazi o caratteri inappropriati per il formato differenziale: aprire il file CSV scaricato e apportare correzioni. Ricaricare quindi e sovrascrivere il volume CSV nella zona bronzea. Eseguire quindi di nuovo la pipeline.

  22. Passare al contenitore gold nel data lake e verrà ora visualizzata la nuova tabella Delta creata durante la pipeline.

Analizzare gli asset

Se non sono stati analizzati gli asset di dati nel Microsoft Purview Data Map, è possibile seguire questa procedura per popolare la mappa dati.

L'analisi delle origini nel patrimonio dati raccoglierà automaticamente i metadati degli asset di dati (tabelle, file, cartelle, report e così via) in tali origini. Registrando un'origine dati e creando l'analisi, si stabilisce la proprietà tecnica delle origini e degli asset visualizzati nel catalogo e si garantisce di avere il controllo su chi può accedere ai metadati in Microsoft Purview. Registrando e archiviando origini e asset a livello di dominio, verrà archiviato al livello più alto della gerarchia di accesso. In genere è consigliabile creare alcune raccolte in cui si analizzano i metadati degli asset e si stabilisce la gerarchia di accesso corretta per tali dati.

Se si è scelto di usare Microsoft Fabric o SQL, è possibile usare queste guide per fornire l'accesso:

Registrare il data lake e analizzare gli asset

  1. In Microsoft Purview Data Map nella scheda domini selezionare le assegnazioni di ruolo per il dominio (sarà il nome dell'account Microsoft Purview):

    1. Aggiungere se stessi come amministratore dell'origine dati e come curatore dei dati al dominio.
      1. Selezionare l'icona della persona accanto al ruolo Amministratore origine dati.
      2. Cerca il tuo nome così com'è in Microsoft Entra ID (potrebbe essere necessario immettere il nome completo digitato esattamente come è in Microsoft Entra ID).
      3. Selezionare OK.
      4. Ripetere questi passaggi per il curatore dei dati.

    Screenshot dell'aggiunta delle autorizzazioni di accesso necessarie a una raccolta.

  2. Registrare il data lake:

    1. Selezionare la scheda Origini dati .
    2. Selezionare Registra.
    3. Selezionare il tipo di archiviazione Azure Data Lake Storage Gen2.

    Screenshot della registrazione di un'origine dati.

  3. Specificare i dettagli per la connessione:

    1. Sottoscrizione (facoltativa)
    2. Nome origine dati (questo sarà il nome dell'origine ADLS Gen2)
    3. Raccolta in cui archiviare i metadati degli asset (facoltativo)
    4. Selezionare Registra
  4. Al termine della registrazione dell'origine dati, è possibile configurare l'analisi. La registrazione indica che Microsoft Purview è connesso all'origine dati e lo ha inserito nella raccolta corretta per la proprietà. L'analisi leggerà quindi i metadati dall'origine e popola gli asset nella mappa dati.

  5. Selezionare l'origine registrata nella scheda Origini dati

    Screenshot della creazione di un'analisi per l'origine dati.

  6. Selezionare una nuova analisi e specificare i dettagli:

    1. Usare il runtime di integrazione predefinito per questa analisi
    2. Le credenziali devono essere Microsoft Purview MSI (system)
    3. Il livello di analisi è Rilevamento automatico
    4. Selezionare una raccolta o usare il dominio (la raccolta deve essere la stessa raccolta o la stessa raccolta figlio di in cui è stata registrata l'origine dati)
    5. Selezionare Continua

    Consiglio

    A questo punto Microsoft Purview testerà la connessione per verificare che sia possibile eseguire un'analisi. Se non è stato concesso l'accesso al lettore MSI di Microsoft Purview nell'origine dati, l'operazione avrà esito negativo. Se non si è il proprietario dell'origine dati o si dispone di un collaboratore per l'accesso utente, l'analisi avrà esito negativo perché si prevede di avere l'autorizzazione per creare la connessione.

  7. Selezionare ora solo il contenitore "gold" in cui è stata inserita la tabella delta nella sezione dei dati di compilazione dell'esercitazione. Ciò impedirà l'analisi di eventuali altri asset di dati presenti nell'archivio dati.

    1. Dovrebbe avere un solo assegno blu accanto all'oro, è possibile lasciare i controlli accanto a tutto perché analizzerà l'origine completa e creerà comunque gli asset che useremo e altro ancora.
    2. Selezionare Continua
  8. Nella schermata selezionare un set di regole di analisi è consigliabile usare il set di regole di analisi predefinito.

  9. Selezionare Continua

  10. In impostare un trigger di analisi si imposterà la frequenza dell'analisi in modo da continuare ad aggiungere asset di dati al contenitore gold del lago che continuerà a popolare la mappa dati. Selezionare Una volta.

  11. Selezionare Continua.

  12. Selezionare Salva ed esegui. Verrà creata un'analisi che leggerà solo i metadati dal contenitore gold del data lake e popola la tabella che verrà usata nella Microsoft Purview Data Catalog nelle sezioni successive. Se si seleziona solo Salva, l'analisi non verrà eseguita e gli asset non verranno visualizzati. Dopo l'esecuzione dell'analisi, verrà visualizzata l'analisi creata con lo stato Ultima esecuzionein coda. Quando le letture dell'analisi completano gli asset sono pronti per la sezione successiva. Questa operazione potrebbe richiedere alcuni minuti o ore a seconda del numero di asset presenti nell'origine.

Passaggi successivi

Sezione 3 - Pubblicare prodotti dati