Partager via


Créer des règles de modèle d’ensemble de ressources

Les systèmes de traitement des données à grande échelle stockent généralement une seule table dans le stockage sous la forme de plusieurs fichiers. Ce concept est représenté dans Microsoft Purview à l’aide d’ensembles de ressources. Un jeu de ressources est un objet unique dans le catalogue de données qui représente un grand nombre de ressources dans le stockage. Pour plus d’informations, consultez Présentation des ensembles de ressources.

Lors de l’analyse d’un compte de stockage, Microsoft Purview utilise un ensemble de modèles définis pour déterminer si un groupe de ressources est un jeu de ressources. Dans certains cas, le regroupement des ensembles de ressources de Microsoft Purview peut ne pas refléter avec précision votre patrimoine de données. Les règles de modèle d’ensemble de ressources vous permettent de personnaliser ou de remplacer la façon dont Microsoft Purview détecte les ressources qui sont regroupées en tant que jeux de ressources et la façon dont elles sont affichées dans le catalogue.

Les règles de modèle sont actuellement prises en charge dans les types de sources suivants :

  • Azure Data Lake Storage Gen2
  • Stockage Blob Azure
  • Azure Files
  • Amazon S3

L’ensemble de fonctionnalités d’ensemble de ressources avancées doit être activé pour créer des règles de modèle d’ensemble de ressources. Pour en savoir plus, consultez Présentation des ensembles de ressources avancés.

Comment créer une règle de modèle d’ensemble de ressources

Suivez les étapes ci-dessous pour créer une règle de modèle d’ensemble de ressources :

  1. Accédez au mappage de données. Sélectionnez Règles de modèle dans le menu sous le titre Gestion de la source. Sélectionnez + Nouveau pour créer un ensemble de règles.

    Créer une règle de modèle d’ensemble de ressources

  2. Entrez l’étendue de votre règle de modèle d’ensemble de ressources. Sélectionnez votre type de compte de stockage et le nom du compte de stockage sur lequel vous souhaitez créer une règle définie. Chaque ensemble de règles est appliqué par rapport à une étendue de chemin d’accès au dossier spécifiée dans le champ Chemin d’accès du dossier .

    Créer des configurations de règle de modèle d’ensemble de ressources

  3. Pour entrer une règle pour une étendue de configuration, sélectionnez + Nouvelle règle.

  4. Entrez les champs suivants pour créer une règle :

    1. Nom de la règle : Nom de la règle de configuration. Ce champ n’a aucun effet sur les ressources à laquelle la règle s’applique.

    2. Nom qualifié : Chemin d’accès qualifié qui utilise une combinaison de texte, de remplacements dynamiques et de remplacements statiques pour faire correspondre les ressources à la règle de configuration. Ce chemin est relatif à l’étendue de la règle de configuration. Consultez la section syntaxe ci-dessous pour obtenir des instructions détaillées sur la façon de spécifier des noms qualifiés.

    3. Nom d’affichage : Nom complet de la ressource. Ce champ est facultatif. Utilisez des remplacements de texte brut et statiques pour personnaliser l’affichage d’une ressource dans le catalogue. Pour obtenir des instructions plus détaillées, consultez la section syntaxe ci-dessous.

    4. Ne pas regrouper en tant qu’ensemble de ressources : Si cette option est activée, la ressource correspondante ne sera pas regroupée dans un jeu de ressources.

      Créez une règle de configuration.

  5. Enregistrez la règle en sélectionnant Ajouter.

Remarque

Une fois qu’une règle de modèle est créée, toutes les nouvelles analyses appliquent la règle pendant l’ingestion. Les ressources existantes dans le catalogue de données seront mises à jour via un processus en arrière-plan qui peut prendre jusqu’à quelques heures.

Syntaxe de règle de modèle

Lorsque vous créez des règles de modèle d’ensemble de ressources, utilisez la syntaxe suivante pour spécifier les règles de ressources qui s’appliquent.

Remplaceurs dynamiques (crochets simples)

Les crochets simples sont utilisés comme remplaçants dynamiques dans des règles de modèle. Spécifiez un remplacement dynamique dans le nom qualifié à l’aide du format {<replacerName:<replacerType>}. S’ils sont mis en correspondance, les remplacements dynamiques sont utilisés comme condition de regroupement qui indique que les ressources doivent être représentées sous la forme d’un jeu de ressources. Si les ressources sont regroupées dans un jeu de ressources, le chemin d’accès qualifié du jeu de ressources contient {replacerName} l’emplacement où le remplaceur a été spécifié.

Par exemple, si deux ressources folder1/file-1.csv et folder2/file-2.csv correspondent à la règle {folder:string}/file-{NUM:int}.csv, le jeu de ressources serait une seule entité {folder}/file-{NUM}.csv.

Cas particulier : remplacements dynamiques en cas de non-regroupement dans un jeu de ressources

Si Ne pas regrouper en tant que jeu de ressources est activé pour une règle de modèle, le nom du remplacement est un champ facultatif. {:<replacerType>} est une syntaxe valide. Par exemple, file-{:int}.csv correspond à file-1.csv et file-2.csv crée deux ressources différentes au lieu d’un jeu de ressources.

Remplaceurs statiques (crochets doubles)

Les crochets doubles sont utilisés comme remplaçants statiques dans le nom qualifié d’une règle de modèle. Spécifiez un remplacement statique dans le nom qualifié à l’aide du format {{<replacerName>:<replacerType>}}. Si elles sont mises en correspondance, chaque ensemble de valeurs de remplacement statique uniques crée des regroupements de groupes de ressources différents.

Par exemple, si deux ressources folder1/file-1.csv et folder2/file-2.csv correspondent à la règle {{folder:string}}/file-{NUM:int}.csv, deux jeux de ressources sont créés folder1/file-{NUM}.csv et folder2/file-{NUM}.csv.

Les remplacements statiques peuvent être utilisés pour spécifier le nom d’affichage d’une ressource correspondant à une règle de modèle. L’utilisation {{<replacerName>}} de dans le nom d’affichage d’une règle utilise la valeur correspondante dans le nom de la ressource.

Types de remplacement disponibles

Voici les types disponibles qui peuvent être utilisés dans les remplacements statiques et dynamiques :

Type Structure
string Série d’un ou de plusieurs caractères Unicode comprenant des délimiteurs tels que des espaces.
int Série de 1 ou plus de 0 à 9 caractères ASCII, elle peut être précédée de 0 (par exemple, 0001).
guid Série de 32 ou 8-4-4-4-12 représentation sous forme de chaîne d’un UUID tel que défini dans RFC 4122.
date Série de 6 ou 8 caractères ASCII 0-9 avec des séparateurs facultatifs : aaaammjj, aaaa-mm-jj, aaaammjj, aaaa-mm-jj, spécifié dans RFC 3339.
Temps Série de 4 ou 6 caractères ASCII 0-9 avec des séparateurs facultatifs : HHmm, HH:mm, HHmmss, HH:mm:ss spécifié dans RFC 3339.
Timestamp Série de 12 ou 14 caractères ASCII 0-9 avec éventuellement des séparateurs : aaaa-mm-jjTHH:mm, aaaammddhhmm, aaaa-mm-jjTHH:mm:ss, aaaammjjHHmmss spécifié dans RFC 3339.
valeur booléenne Peut contenir « true » ou « false », sans respect de la casse.
number Une série de 0 ou plus 0-9 caractères ASCII, elle peut être préfixée 0 (par exemple, 0001) suivie éventuellement d’un point « . » et d’une série de 1 ou plus 0-9 caractères ASCII, elle peut être 0 postfixée (par exemple, .100)
Hexagonale Série d’un ou de plusieurs caractères ASCII de l’ensemble 0-1 et A-F, la valeur peut être préfixée 0
local Chaîne qui correspond à la syntaxe spécifiée dans RFC 5646.

Ordre des règles de modèle d’ensemble de ressources appliquées

Voici l’ordre des opérations pour l’application de règles de modèle :

  1. Des étendues plus spécifiques sont prioritaires si une ressource correspond à deux règles. Par exemple, les règles d’une étendue container/folder s’appliquent avant les règles de l’étendue container.

  2. Ordre des règles dans une étendue spécifique. Cela peut être modifié dans l’expérience utilisateur.

  3. Si une ressource ne correspond à aucune règle spécifiée, l’heuristique de l’ensemble de ressources par défaut s’applique.

Exemples

Exemple 1

Extraction de données SAP en chargements complets et delta

Entrées

Fichiers :

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Règle de modèle

Portée:https://myazureblob.blob.core.windows.net/bar/

Nom d’affichage : 'External Customer'

Nom qualifié :customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Jeu de ressources : true

Sortie

Une ressource d’ensemble de ressources

Nom d’affichage : Client externe

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Exemple 2

Données IoT au format avro

Entrées

Fichiers :

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Règles de modèle

Portée:https://myazureblob.blob.core.windows.net/bar/

Règle 1

Nom d’affichage : 'machine-89'

Nom qualifié :raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Jeu de ressources : true

Règle 2

Nom d’affichage : 'machine-90'

Nom qualifié :raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Jeu de ressources : true

Sorties

Deux jeux de ressources

Jeu de ressources 1

Nom complet : machine-89

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Jeu de ressources 2

Nom d’affichage : machine-90

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Exemple 3

Données IoT au format avro

Entrées

Fichiers :

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Règle de modèle

Portée:https://myazureblob.blob.core.windows.net/bar/

Nom d’affichage : « Machine-{{machineid}} »

Nom qualifié :raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Jeu de ressources : true

Sorties

Jeu de ressources 1

Nom complet : machine-89

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Jeu de ressources 2

Nom complet : machine-90

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Exemple 4

Ne pas regrouper en jeux de ressources

Entrées

Fichiers :

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Règle de modèle

Portée:https://myazureblob.blob.core.windows.net/bar/

Nom d’affichage :Machine-{{machineid}}

Nom qualifié :raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Jeu de ressources : false

Sorties

Quatre ressources individuelles

Ressource 1

Nom complet : machine-89

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Ressource 2

Nom complet : machine-89

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Ressource 3

Nom complet : machine-89

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Ressource 4

Nom complet : machine-90

Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Prochaines étapes

Commencez par inscrire et analyser un compte de stockage Azure Data Lake Gen2.