Informazioni sui set di risorse

Questo articolo illustra come Microsoft Purview usa i set di risorse per eseguire il mapping degli asset di dati alle risorse logiche.

Informazioni di sfondo

I sistemi di elaborazione dati su larga scala archiviano in genere una singola tabella nell'archiviazione come più file. Nel Microsoft Purview Data Catalog questo concetto è rappresentato dall'uso di set di risorse. Un set di risorse è un singolo oggetto nel catalogo che rappresenta un numero elevato di asset nell'archiviazione.

Si supponga, ad esempio, che il cluster Spark abbia salvato in modo permanente un dataframe in un'origine dati ad Azure Data Lake Storage (ADLS) Gen2. Anche se in Spark la tabella è simile a una singola risorsa logica, sul disco sono probabilmente presenti migliaia di file Parquet, ognuno dei quali rappresenta una partizione del contenuto totale del dataframe. I dati IoT e i dati del log Web presentano la stessa sfida. Si supponga di avere un sensore che restituisce i file di log più volte al secondo. Non ci vorrà molto prima di avere centinaia di migliaia di file di log da quel singolo sensore.

Come Microsoft Purview rileva i set di risorse

Microsoft Purview supporta il rilevamento di set di risorse in Archiviazione BLOB di Azure, ADLS Gen1, ADLS Gen2, File di Azure e Amazon S3.

Microsoft Purview rileva automaticamente i set di risorse durante l'analisi. Questa funzionalità esamina tutti i dati inseriti tramite l'analisi e la confronta con un set di modelli definiti.

Si supponga, ad esempio, di analizzare un'origine dati il cui URL è https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. Microsoft Purview esamina i segmenti di percorso e determina se corrispondono a modelli predefiniti. Ha modelli predefiniti per GUID, numeri, formati di data, codici di localizzazione (ad esempio en-us) e così via. In questo caso, il modello numerico corrisponde a 23. Microsoft Purview presuppone che questo file faccia parte di un set di risorse denominato https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet.

In alternativa, per un URL come https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json, Microsoft Purview corrisponde sia al modello di localizzazione che al modello numerico, producendo un set di risorse denominato https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

Usando questa strategia, Microsoft Purview eseguirà il mapping delle risorse seguenti allo stesso set di risorse: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Tipi di file che Microsoft Purview non rileverà come set di risorse

Microsoft Purview intenzionalmente non tenta di classificare la maggior parte dei tipi di file di documento come Word, Excel o PDF come set di risorse. L'eccezione è il formato CSV perché è un formato di file partizionato comune.

Come Microsoft Purview analizza i set di risorse

Quando Microsoft Purview rileva le risorse che ritiene far parte di un set di risorse, passa da un'analisi completa a un'analisi di esempio. Un'analisi di esempio apre solo un subset dei file che ritiene presenti nel set di risorse. Per ogni file aperto, usa il relativo schema ed esegue i relativi classificatori. Microsoft Purview trova quindi la risorsa più recente tra le risorse aperte e usa lo schema e le classificazioni di tale risorsa nella voce per l'intero set di risorse nel catalogo.

Set di risorse avanzati

Microsoft Purview può personalizzare e arricchire ulteriormente gli asset del set di risorse tramite la funzionalità Set di risorse avanzati . I set di risorse avanzati consentono a Microsoft Purview di comprendere le partizioni sottostanti dei dati inseriti e consente la creazione di regole del modello di set di risorse che consentono di personalizzare il modo in cui Microsoft Purview raggruppa i set di risorse durante l'analisi.

Quando sono abilitati i set di risorse avanzati, Microsoft Purview esegue aggregazioni aggiuntive per calcolare le informazioni seguenti sugli asset del set di risorse:

  • Percorso di esempio da un file che include il set di risorse.
  • Numero di partizioni che mostra il numero di file che costituiscono il set di risorse.
  • Dimensioni totali di tutti i file che costituiscono il set di risorse.

Queste proprietà sono disponibili nella pagina dei dettagli dell'asset del set di risorse.

Le proprietà calcolate quando sono attivati set di risorse avanzati

Attivazione di set di risorse avanzati

I set di risorse avanzati sono disattivati per impostazione predefinita in tutte le nuove istanze di Microsoft Purview. I set di risorse avanzati possono essere abilitati dalle informazioni sull'account nell'hub di gestione. Solo gli utenti aggiunti al ruolo Curatore dati nella raccolta radice possono gestire le impostazioni dei set di risorse avanzati.

Attivare Set di risorse avanzate.

Dopo aver abilitato i set di risorse avanzati, gli arricchimenti aggiuntivi si verificheranno su tutti gli asset appena inseriti. Il team di Microsoft Purview consiglia di attendere un'ora prima di analizzare i nuovi dati del data lake dopo aver attivato la funzionalità.

Importante

L'abilitazione di set di risorse avanzati influirà sulla frequenza di aggiornamento delle informazioni dettagliate sugli asset e sulla classificazione. Quando sono attivati set di risorse avanzati, le informazioni dettagliate sugli asset e sulla classificazione verranno aggiornate solo due volte al giorno.

Modelli predefiniti del set di risorse

Microsoft Purview supporta i modelli di set di risorse seguenti. Questi modelli possono essere visualizzati come nome in una directory o come parte di un nome file.

Modelli basati su Regex

Nome modello Nome visualizzato Descrizione
Guid {GUID} Identificatore univoco globale definito in RFC 4122
Numero {N} Una o più cifre
Formati data/ora {Year} {Month} {Giorno} {N} Sono supportati vari formati di data/ora, ma tutti sono rappresentati con {Year}[delimitatore]{Month}[delimitatore]{Day} o serie di {N}s.
4ByteHex {HEX} Un numero HEX a 4 cifre.
Localizzazione {LOC} Un tag di lingua come definito in BCP 47, sono supportati sia i nomi - che _ (ad esempio, en_ca ed en-ca)

Modelli complessi

Nome modello Nome visualizzato Descrizione
SparkPath {SparkPartitions} Identificatore del file di partizione Spark
Date(aaaa/mm/gg)InPath {Year}/{Month}/{Day} Modello anno/mese/giorno che si estende su più cartelle

Modalità di visualizzazione dei set di risorse nel Microsoft Purview Data Catalog

Quando Microsoft Purview corrisponde a un gruppo di asset in un set di risorse, tenta di estrarre le informazioni più utili da usare come nome visualizzato nel catalogo. Alcuni esempi della convenzione di denominazione predefinita applicata:

Esempio 1

Nome completo: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Nome visualizzato: "nome dell'output spark"

Esempio 2

Nome completo: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Nome visualizzato: "my partitioned data"

Esempio 3

Nome completo: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Nome visualizzato: "data"

Personalizzazione del raggruppamento di set di risorse tramite regole del modello

Durante l'analisi di un account di archiviazione, Microsoft Purview usa un set di modelli definiti per determinare se un gruppo di asset è un set di risorse. In alcuni casi, il raggruppamento del set di risorse di Microsoft Purview potrebbe non riflettere accuratamente il patrimonio dati. Questi problemi possono includere:

  • Contrassegnare erroneamente un asset come set di risorse
  • Inserimento di un asset nel set di risorse errato
  • Contrassegnare erroneamente un asset come non essere un set di risorse

Per personalizzare o ignorare il modo in cui Microsoft Purview rileva quali asset sono raggruppati come set di risorse e come vengono visualizzati all'interno del catalogo, è possibile definire regole di modello nel Centro gestione. Per istruzioni dettagliate e sintassi, vedere Regole del modello di set di risorse.

Limitazioni note con i set di risorse

  • Per impostazione predefinita, gli asset del set di risorse verranno eliminati da un'analisi solo se sono abilitati i set di risorse avanzati . Se questa funzionalità è disattivata, gli asset del set di risorse possono essere eliminati solo manualmente o tramite API.

Passaggi successivi

Per iniziare a usare Microsoft Purview, vedere Avvio rapido: Creare un account Microsoft Purview.