Condividi tramite


Creare regole del modello di set di risorse

I sistemi di elaborazione dati su larga scala archiviano in genere una singola tabella nell'archiviazione come più file. Questo concetto è rappresentato in Microsoft Purview usando set di risorse. Un set di risorse è un singolo oggetto nel catalogo dati che rappresenta un numero elevato di asset nell'archiviazione. Per altre informazioni, vedere Informazioni sui set di risorse.

Durante l'analisi di un account di archiviazione, Microsoft Purview usa un set di modelli definiti per determinare se un gruppo di asset è un set di risorse. In alcuni casi, il raggruppamento del set di risorse di Microsoft Purview potrebbe non riflettere accuratamente il patrimonio dati. Le regole del modello di set di risorse consentono di personalizzare o ignorare il modo in cui Microsoft Purview rileva quali asset sono raggruppati come set di risorse e come vengono visualizzati all'interno del catalogo.

Le regole del modello sono attualmente supportate nei tipi di origine seguenti:

  • Azure Data Lake Storage Gen2
  • Archiviazione BLOB di Azure
  • File di Azure
  • Amazon S3

Il set di funzionalità Set di risorse avanzato deve essere abilitato per creare regole del modello di set di risorse. Per altre informazioni, vedere Informazioni sui set di risorse avanzati.

Come creare una regola del modello di set di risorse

Seguire la procedura seguente per creare una nuova regola del modello di set di risorse:

  1. Passare alla mappa dati. Selezionare Regole modello dal menu sotto l'intestazione Gestione origine. Selezionare + Nuovo per creare un nuovo set di regole.

    Creare una nuova regola del modello di set di risorse

  2. Immettere l'ambito della regola del modello del set di risorse. Selezionare il tipo di account di archiviazione e il nome dell'account di archiviazione in cui si vuole creare un set di regole. Ogni set di regole viene applicato rispetto a un ambito del percorso della cartella specificato nel campo Percorso cartella .

    Creare configurazioni delle regole del modello di set di risorse

  3. Per immettere una regola per un ambito di configurazione, selezionare + Nuova regola.

  4. Immettere nei campi seguenti per creare una regola:

    1. Nome regola: Nome della regola di configurazione. Questo campo non ha alcun effetto sugli asset a cui si applica la regola.

    2. Nome completo: Percorso completo che usa una combinazione di testo, sostitutori dinamici e sostitutori statici per associare gli asset alla regola di configurazione. Questo percorso è relativo all'ambito della regola di configurazione. Per istruzioni dettagliate su come specificare i nomi qualificati, vedere la sezione relativa alla sintassi seguente.

    3. Nome visualizzato: Nome visualizzato dell'asset. Questo campo è facoltativo. Usare il testo normale e i sostitutori statici per personalizzare la modalità di visualizzazione di un asset nel catalogo. Per istruzioni più dettagliate, vedere la sezione relativa alla sintassi seguente.

    4. Non raggruppare come set di risorse: Se abilitata, la risorsa corrispondente non verrà raggruppata in un set di risorse.

      Creare una nuova regola di configurazione.

  5. Salvare la regola selezionando Aggiungi.

Nota

Dopo aver creato una regola di modello, tutte le nuove analisi applicheranno la regola durante l'inserimento. Gli asset esistenti nel catalogo dati verranno aggiornati tramite un processo in background che può richiedere fino a poche ore.

Sintassi delle regole del modello

Quando si creano regole del modello di set di risorse, usare la sintassi seguente per specificare a quali regole di asset si applicano.

Sostitutori dinamici (parentesi quadre singole)

Le singole parentesi quadre vengono usate come sostitutori dinamici in regole di modello. Specificare un replacer dinamico nel nome completo usando il formato {<replacerName:<replacerType>}. In caso di corrispondenza, i sostitutori dinamici vengono usati come condizione di raggruppamento che indicano che gli asset devono essere rappresentati come set di risorse. Se gli asset sono raggruppati in un set di risorse, il percorso completo del set di risorse conterrà {replacerName} la posizione in cui è stato specificato il replacer.

Ad esempio, se due asset folder1/file-1.csv e folder2/file-2.csv corrispondevano alla regola {folder:string}/file-{NUM:int}.csv, il set di risorse sarebbe una singola entità {folder}/file-{NUM}.csv.

Caso speciale: Sostituisci dinamici quando non si esegue il raggruppamento in un set di risorse

Se Non raggruppare come set di risorse è abilitato per una regola del modello, il nome del replacer è un campo facoltativo. {:<replacerType>} è una sintassi valida. Ad esempio, file-{:int}.csv corrisponderebbe correttamente a file-1.csv e file-2.csv e creerebbe due asset diversi anziché un set di risorse.

Sostituisci statici (parentesi doppie)

Le doppie parentesi quadre vengono usate come sostitutori statici nel nome completo di una regola di modello. Specificare un replacer statico nel nome completo usando il formato {{<replacerName>:<replacerType>}}. Se viene trovata una corrispondenza, ogni set di valori di sostituzione statici univoci creerà raggruppamenti di set di risorse diversi.

Ad esempio, se due asset folder1/file-1.csv e folder2/file-2.csv corrispondevano alla regola {{folder:string}}/file-{NUM:int}.csv, verranno creati folder1/file-{NUM}.csv due set di risorse e folder2/file-{NUM}.csv.

I sostitutori statici possono essere usati per specificare il nome visualizzato di un asset corrispondente a una regola del modello. L'uso {{<replacerName>}} nel nome visualizzato di una regola userà il valore corrispondente nel nome dell'asset.

Tipi di sostituzione disponibili

Di seguito sono riportati i tipi disponibili che possono essere usati nei replacer statici e dinamici:

Tipo Struttura
stringa Serie di uno o più caratteri Unicode, inclusi delimitatori come gli spazi.
int Una serie di 1 o più 0-9 caratteri ASCII, può essere preceduto da 0 (ad esempio, 0001).
guid Serie di rappresentazione di stringa 32 o 8-4-4-4-12 di un UUID come definito in RFC 4122.
data Serie di 6 o 8 0-9 caratteri ASCII con separatori facoltativamente: aaaammgg, aaaa-mm-gg, aammgg, aa-mm-gg, specificata in RFC 3339.
Tempo Serie di 4 o 6 0-9 caratteri ASCII con separatori facoltativamente: HHmm, HH:mm, HHmmss, HH:mm:ss specificati in RFC 3339.
Timestamp Serie di 12 o 14 0-9 caratteri ASCII con separatori facoltativamente: aaaa-mm-ddTHH:mm, aaaammddhhmm, aaaa-mm-ddTHH:mm:ss, aaaammddHHmmss specificati in RFC 3339.
booleano Può contenere 'true' o 'false', senza distinzione tra maiuscole e minuscole.
Numero Una serie di 0 o più 0-9 caratteri ASCII, può essere preceduto da 0 (ad esempio, 0001) seguito facoltativamente da un punto '.' e una serie di 1 o più 0-9 caratteri ASCII, può essere 0 suffisso (ad esempio, .100)
Hex Una serie di uno o più caratteri ASCII del set 0-1 e A-F, il valore può essere preceduto da 0
Impostazioni internazionali Stringa che corrisponde alla sintassi specificata in RFC 5646.

Ordine delle regole del modello di set di risorse applicate

Di seguito è riportato l'ordine delle operazioni per l'applicazione delle regole del modello:

  1. Gli ambiti più specifici avranno la priorità se un asset corrisponde a due regole. Ad esempio, le regole in un ambito container/folder verranno applicate prima delle regole nell'ambito container.

  2. Ordine delle regole all'interno di un ambito specifico. Questa operazione può essere modificata nell'esperienza utente.

  3. Se un asset non corrisponde a una regola specificata, viene applicata l'euristica predefinita del set di risorse.

Esempi

Esempio 1

Estrazione dei dati SAP in carichi completi e differenziari

Input

File:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Regola modello

Ambito:https://myazureblob.blob.core.windows.net/bar/

Nome visualizzato: 'Cliente esterno'

Nome qualificato:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Set di risorse: true

Output

Un asset del set di risorse

Nome visualizzato: Cliente esterno

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Esempio 2

Dati IoT in formato avro

Input

File:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regole del modello

Ambito:https://myazureblob.blob.core.windows.net/bar/

Regola 1

Nome visualizzato: 'machine-89'

Nome qualificato:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Set di risorse: true

Regola 2

Nome visualizzato: 'machine-90'

Nome qualificato:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Set di risorse: true

Output

Due set di risorse

Set di risorse 1

Nome visualizzato: machine-89

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Set di risorse 2

Nome visualizzato: machine-90

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Esempio 3

Dati IoT in formato avro

Input

File:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regola modello

Ambito:https://myazureblob.blob.core.windows.net/bar/

Nome visualizzato: 'Machine-{{machineid}}'

Nome qualificato:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Set di risorse: true

Output

Set di risorse 1

Nome visualizzato: machine-89

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Set di risorse 2

Nome visualizzato: machine-90

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Esempio 4

Non raggruppare in set di risorse

Input

File:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regola modello

Ambito:https://myazureblob.blob.core.windows.net/bar/

Nome visualizzato:Machine-{{machineid}}

Nome qualificato:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Set di risorse: false

Output

Quattro singoli asset

Asset 1

Nome visualizzato: machine-89

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Asset 2

Nome visualizzato: machine-89

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Asset 3

Nome visualizzato: machine-89

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Asset 4

Nome visualizzato: machine-90

Nome qualificato:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Passaggi successivi

Per iniziare, registrare ed analizzare un account di archiviazione di Azure Data Lake Gen2.