Créer des règles de modèle d’ensemble de ressources
Les systèmes de traitement des données à grande échelle stockent généralement une seule table dans le stockage sous la forme de plusieurs fichiers. Ce concept est représenté dans Microsoft Purview à l’aide d’ensembles de ressources. Un jeu de ressources est un objet unique dans le catalogue de données qui représente un grand nombre de ressources dans le stockage. Pour plus d’informations, consultez Présentation des ensembles de ressources.
Lors de l’analyse d’un compte de stockage, Microsoft Purview utilise un ensemble de modèles définis pour déterminer si un groupe de ressources est un jeu de ressources. Dans certains cas, le regroupement des ensembles de ressources de Microsoft Purview peut ne pas refléter avec précision votre patrimoine de données. Les règles de modèle d’ensemble de ressources vous permettent de personnaliser ou de remplacer la façon dont Microsoft Purview détecte les ressources qui sont regroupées en tant que jeux de ressources et la façon dont elles sont affichées dans le catalogue.
Les règles de modèle sont actuellement prises en charge dans les types de sources suivants :
- Azure Data Lake Storage Gen2
- Stockage Blob Azure
- Azure Files
- Amazon S3
L’ensemble de fonctionnalités d’ensemble de ressources avancées doit être activé pour créer des règles de modèle d’ensemble de ressources. Pour en savoir plus, consultez Présentation des ensembles de ressources avancés.
Comment créer une règle de modèle d’ensemble de ressources
Suivez les étapes ci-dessous pour créer une règle de modèle d’ensemble de ressources :
Accédez au mappage de données. Sélectionnez Règles de modèle dans le menu sous le titre Gestion de la source. Sélectionnez + Nouveau pour créer un ensemble de règles.
Entrez l’étendue de votre règle de modèle d’ensemble de ressources. Sélectionnez votre type de compte de stockage et le nom du compte de stockage sur lequel vous souhaitez créer une règle définie. Chaque ensemble de règles est appliqué par rapport à une étendue de chemin d’accès au dossier spécifiée dans le champ Chemin d’accès du dossier .
Pour entrer une règle pour une étendue de configuration, sélectionnez + Nouvelle règle.
Entrez les champs suivants pour créer une règle :
Nom de la règle : Nom de la règle de configuration. Ce champ n’a aucun effet sur les ressources à laquelle la règle s’applique.
Nom qualifié : Chemin d’accès qualifié qui utilise une combinaison de texte, de remplacements dynamiques et de remplacements statiques pour faire correspondre les ressources à la règle de configuration. Ce chemin est relatif à l’étendue de la règle de configuration. Consultez la section syntaxe ci-dessous pour obtenir des instructions détaillées sur la façon de spécifier des noms qualifiés.
Nom d’affichage : Nom complet de la ressource. Ce champ est facultatif. Utilisez des remplacements de texte brut et statiques pour personnaliser l’affichage d’une ressource dans le catalogue. Pour obtenir des instructions plus détaillées, consultez la section syntaxe ci-dessous.
Ne pas regrouper en tant qu’ensemble de ressources : Si cette option est activée, la ressource correspondante ne sera pas regroupée dans un jeu de ressources.
Enregistrez la règle en sélectionnant Ajouter.
Remarque
Une fois qu’une règle de modèle est créée, toutes les nouvelles analyses appliquent la règle pendant l’ingestion. Les ressources existantes dans le catalogue de données seront mises à jour via un processus en arrière-plan qui peut prendre jusqu’à quelques heures.
Syntaxe de règle de modèle
Lorsque vous créez des règles de modèle d’ensemble de ressources, utilisez la syntaxe suivante pour spécifier les règles de ressources qui s’appliquent.
Remplaceurs dynamiques (crochets simples)
Les crochets simples sont utilisés comme remplaçants dynamiques dans des règles de modèle. Spécifiez un remplacement dynamique dans le nom qualifié à l’aide du format {<replacerName>:<replacerType>}
. S’ils sont mis en correspondance, les remplacements dynamiques sont utilisés comme condition de regroupement qui indique que les ressources doivent être représentées sous la forme d’un jeu de ressources. Si les ressources sont regroupées dans un jeu de ressources, le chemin d’accès qualifié du jeu de ressources contient {replacerName}
l’emplacement où le remplaceur a été spécifié.
Par exemple, si deux ressources folder1/file-1.csv
et folder2/file-2.csv
correspondent à la règle {folder:string}/file-{NUM:int}.csv
, le jeu de ressources serait une seule entité {folder}/file-{NUM}.csv
.
Cas particulier : remplacements dynamiques en cas de non-regroupement dans un jeu de ressources
Si Ne pas regrouper en tant que jeu de ressources est activé pour une règle de modèle, le nom du remplacement est un champ facultatif.
{:<replacerType>}
est une syntaxe valide. Par exemple, file-{:int}.csv
correspond à file-1.csv
et file-2.csv
crée deux ressources différentes au lieu d’un jeu de ressources.
Remplaceurs statiques (crochets doubles)
Les crochets doubles sont utilisés comme remplaçants statiques dans le nom qualifié d’une règle de modèle. Spécifiez un remplacement statique dans le nom qualifié à l’aide du format {{<replacerName>:<replacerType>}}
. Si elles sont mises en correspondance, chaque ensemble de valeurs de remplacement statique uniques crée des regroupements de groupes de ressources différents.
Par exemple, si deux ressources folder1/file-1.csv
et folder2/file-2.csv
correspondent à la règle {{folder:string}}/file-{NUM:int}.csv
, deux jeux de ressources sont créés folder1/file-{NUM}.csv
et folder2/file-{NUM}.csv
.
Les remplacements statiques peuvent être utilisés pour spécifier le nom d’affichage d’une ressource correspondant à une règle de modèle. L’utilisation {{<replacerName>}}
de dans le nom d’affichage d’une règle utilise la valeur correspondante dans le nom de la ressource.
Types de remplacement disponibles
Voici les types disponibles qui peuvent être utilisés dans les remplacements statiques et dynamiques :
Type | Structure |
---|---|
string | Série d’un ou de plusieurs caractères Unicode comprenant des délimiteurs tels que des espaces. |
int | Série de 1 ou plus de 0 à 9 caractères ASCII, elle peut être précédée de 0 (par exemple, 0001). |
guid | Série de 32 ou 8-4-4-4-12 représentation sous forme de chaîne d’un UUID tel que défini dans RFC 4122. |
date | Série de 6 ou 8 caractères ASCII 0-9 avec des séparateurs facultatifs : aaaammjj, aaaa-mm-jj, aaaammjj, aaaa-mm-jj, spécifié dans RFC 3339. |
Temps | Série de 4 ou 6 caractères ASCII 0-9 avec des séparateurs facultatifs : HHmm, HH :mm, HHmmss, HH :mm :ss spécifié dans RFC 3339. |
horodatage | Série de 12 ou 14 caractères ASCII 0-9 avec éventuellement des séparateurs : aaaa-mm-jjTHH :mm, aaaammddhhmm, aaaa-mm-jjTHH :mm :ss, aaaammjjHHmmss spécifié dans RFC 3339. |
valeur booléenne | Peut contenir « true » ou « false », sans respect de la casse. |
number | Une série de 0 ou plus 0-9 caractères ASCII, elle peut être préfixée 0 (par exemple, 0001) suivie éventuellement d’un point « . » et d’une série de 1 ou plus 0-9 caractères ASCII, elle peut être 0 postfixée (par exemple, .100) |
sortilège | Série d’un ou de plusieurs caractères ASCII de l’ensemble 0-1 et A-F, la valeur peut être préfixée 0 |
local | Chaîne qui correspond à la syntaxe spécifiée dans RFC 5646. |
Ordre des règles de modèle d’ensemble de ressources appliquées
Voici l’ordre des opérations pour l’application de règles de modèle :
Des étendues plus spécifiques sont prioritaires si une ressource correspond à deux règles. Par exemple, les règles d’une étendue
container/folder
s’appliquent avant les règles de l’étenduecontainer
.Ordre des règles dans une étendue spécifique. Cela peut être modifié dans l’expérience utilisateur.
Si une ressource ne correspond à aucune règle spécifiée, l’heuristique de l’ensemble de ressources par défaut s’applique.
Exemples
Exemple 1
Extraction de données SAP en chargements complets et delta
Entrées
Fichiers :
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt
Règle de modèle
Portée:https://myazureblob.blob.core.windows.net/bar/
Nom d’affichage : 'External Customer'
Nom qualifié :customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt
Jeu de ressources : true
Sortie
Une ressource d’ensemble de ressources
Nom d’affichage : Client externe
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt
Exemple 2
Données IoT au format avro
Entrées
Fichiers :
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Règles de modèle
Portée:https://myazureblob.blob.core.windows.net/bar/
Règle 1
Nom d’affichage : 'machine-89'
Nom qualifié :raw/machinename-89/{date:date}/{time:time}-{id:int}.avro
Jeu de ressources : true
Règle 2
Nom d’affichage : 'machine-90'
Nom qualifié :raw/machinename-90/{date:date}/{time:time}-{id:int}.avro
Jeu de ressources : true
Sorties
Deux jeux de ressources
Jeu de ressources 1
Nom complet : machine-89
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Jeu de ressources 2
Nom d’affichage : machine-90
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Exemple 3
Données IoT au format avro
Entrées
Fichiers :
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Règle de modèle
Portée:https://myazureblob.blob.core.windows.net/bar/
Nom d’affichage : « Machine-{{machineid}} »
Nom qualifié :raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro
Jeu de ressources : true
Sorties
Jeu de ressources 1
Nom complet : machine-89
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Jeu de ressources 2
Nom complet : machine-90
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Exemple 4
Ne pas regrouper en jeux de ressources
Entrées
Fichiers :
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Règle de modèle
Portée:https://myazureblob.blob.core.windows.net/bar/
Nom d’affichage :Machine-{{machineid}}
Nom qualifié :raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro
Jeu de ressources : false
Sorties
Quatre ressources individuelles
Ressource 1
Nom complet : machine-89
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
Ressource 2
Nom complet : machine-89
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
Ressource 3
Nom complet : machine-89
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
Ressource 4
Nom complet : machine-90
Nom qualifié :https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Étapes suivantes
Commencez par inscrire et analyser un compte de stockage Azure Data Lake Gen2.