Présentation des ensembles de ressources

Cet article vous aide à comprendre comment Microsoft Purview utilise des jeux de ressources pour mapper des ressources de données à des ressources logiques.

Informations d’arrière-plan

Les systèmes de traitement des données à grande échelle stockent généralement une seule table dans le stockage sous la forme de plusieurs fichiers. Dans le Catalogue de données Microsoft Purview, ce concept est représenté à l’aide de jeux de ressources. Un jeu de ressources est un objet unique dans le catalogue qui représente un grand nombre de ressources dans le stockage.

Par exemple, supposons que votre cluster Spark ait conservé un DataFrame dans une source de données Azure Data Lake Storage (ADLS) Gen2. Bien que dans Spark, la table ressemble à une seule ressource logique, il y a probablement des milliers de fichiers Parquet sur le disque, chacun représentant une partition du contenu total du DataFrame. Les données IoT et les données de journal web ont le même défi. Imaginez que vous disposez d’un capteur qui génère des fichiers journaux plusieurs fois par seconde. Il ne faudra pas longtemps avant d’avoir des centaines de milliers de fichiers journaux à partir de ce capteur unique.

Comment Microsoft Purview détecte les jeux de ressources

Microsoft Purview prend en charge la détection des jeux de ressources dans Stockage Blob Azure, ADLS Gen1, ADLS Gen2, Azure Files et Amazon S3.

Microsoft Purview détecte automatiquement les jeux de ressources lors de l’analyse. Cette fonctionnalité examine toutes les données ingérées via l’analyse et les compare à un ensemble de modèles définis.

Par exemple, supposons que vous analysez une source de données dont l’URL est https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. Microsoft Purview examine les segments de chemin et détermine s’ils correspondent à des modèles intégrés. Il dispose de modèles intégrés pour les GUID, les nombres, les formats de date, les codes de localisation (par exemple, en-us), etc. Dans ce cas, le modèle de nombre correspond à 23. Microsoft Purview suppose que ce fichier fait partie d’un jeu de ressources nommé https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet.

Ou, pour une URL comme https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json, Microsoft Purview correspond au modèle de localisation et au modèle de nombre, ce qui produit un jeu de ressources nommé https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

À l’aide de cette stratégie, Microsoft Purview mappe les ressources suivantes au même ensemble de ressources , https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json:

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Types de fichiers que Microsoft Purview ne détectera pas en tant qu’ensembles de ressources

Microsoft Purview n’essaie pas intentionnellement de classifier la plupart des types de fichiers de document comme Word, Excel ou PDF en tant qu’ensembles de ressources. L’exception est le format CSV, car il s’agit d’un format de fichier partitionné courant.

Comment Microsoft Purview analyse les ensembles de ressources

Lorsque Microsoft Purview détecte des ressources qu’il pense faire partie d’un ensemble de ressources, il passe d’une analyse complète à une analyse d’exemple. Un exemple d’analyse ouvre uniquement un sous-ensemble des fichiers qu’elle pense être dans le jeu de ressources. Pour chaque fichier qu’il ouvre, il utilise son schéma et exécute ses classifieurs. Microsoft Purview recherche ensuite la ressource la plus récente parmi les ressources ouvertes et utilise le schéma et les classifications de cette ressource dans l’entrée pour l’ensemble des ressources du catalogue.

Ensembles de ressources avancés

Microsoft Purview peut personnaliser et enrichir vos ressources de jeu de ressources via la fonctionnalité Advanced Resource Sets . Les ensembles de ressources avancés permettent à Microsoft Purview de comprendre les partitions sous-jacentes des données ingérées et permettent de créer des règles de modèle d’ensemble de ressources qui personnalisent la façon dont Microsoft Purview regroupe les jeux de ressources pendant l’analyse.

Lorsque les ensembles de ressources avancés sont activés, Microsoft Purview exécute des agrégations supplémentaires pour calculer les informations suivantes sur les ressources de jeu de ressources :

  • Exemple de chemin d’accès à partir d’un fichier qui comprend le jeu de ressources.
  • Nombre de partitions qui indique le nombre de fichiers qui composent le jeu de ressources.
  • Taille totale de tous les fichiers qui composent le jeu de ressources.

Ces propriétés se trouvent dans la page des détails de la ressource de l’ensemble de ressources.

Propriétés calculées lorsque des jeux de ressources avancés sont activés

Activation des jeux de ressources avancés

Les jeux de ressources avancés sont désactivés par défaut dans toutes les nouvelles instances De Microsoft Purview. Les jeux de ressources avancés peuvent être activés à partir des informations de compte dans le hub de gestion. Seuls les utilisateurs ajoutés au rôle Conservateur de données au niveau de la collection racine peuvent gérer les paramètres des ensembles de ressources avancés.

Activez l’ensemble de ressources avancé.

Une fois les jeux de ressources avancés activés, les enrichissements supplémentaires se produisent sur toutes les ressources nouvellement ingérées. L’équipe Microsoft Purview recommande d’attendre une heure avant d’analyser les nouvelles données du lac de données après avoir basculé sur la fonctionnalité.

Importante

L’activation des ensembles de ressources avancés aura un impact sur la fréquence d’actualisation des informations sur les ressources et la classification. Lorsque les jeux de ressources avancés sont activés, les informations sur les ressources et la classification ne sont mises à jour que deux fois par jour.

Modèles de jeu de ressources intégrés

Microsoft Purview prend en charge les modèles de jeu de ressources suivants. Ces modèles peuvent apparaître sous la forme d’un nom dans un répertoire ou dans le cadre d’un nom de fichier.

Modèles basés sur des expressions régulières

Nom du modèle Nom d’affichage Description
Guid {GUID} Identificateur global unique tel que défini dans RFC 4122
Nombre {N} Un ou plusieurs chiffres
Formats de date/heure {Year} {Month} {Day} {N} Nous prenons en charge différents formats de date/heure, mais tous sont représentés par {Année}[délimiteur]{Mois}[délimiteur]{Jour} ou une série de {N}s.
4ByteHex {HEX} Nombre HEX à 4 chiffres.
Localisation {LOC} Balise de langue telle que définie dans BCP 47, les noms - et _ sont pris en charge (par exemple, en_ca et en-ca)

Modèles complexes

Nom du modèle Nom d’affichage Description
SparkPath {SparkPartitions} Identificateur du fichier de partition Spark
Date(aaaa/mm/jj)InPath {Année}/{Mois}/{Jour} Modèle année/mois/jour couvrant plusieurs dossiers

Comment les jeux de ressources sont affichés dans le Catalogue de données Microsoft Purview

Lorsque Microsoft Purview met en correspondance un groupe de ressources dans un jeu de ressources, il tente d’extraire les informations les plus utiles à utiliser comme nom d’affichage dans le catalogue. Voici quelques exemples de la convention d’affectation de noms par défaut appliquée :

Exemple 1

Nom qualifié : https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Nom d’affichage : « nom de la sortie Spark »

Exemple 2

Nom qualifié : https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Nom d’affichage : « mes données partitionnée »

Exemple 3

Nom qualifié : https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Nom d’affichage : « data »

Personnalisation du regroupement d’ensembles de ressources à l’aide de règles de modèle

Lors de l’analyse d’un compte de stockage, Microsoft Purview utilise un ensemble de modèles définis pour déterminer si un groupe de ressources est un jeu de ressources. Dans certains cas, le regroupement des ensembles de ressources de Microsoft Purview peut ne pas refléter avec précision votre patrimoine de données. Ces problèmes peuvent inclure :

  • Marquage incorrect d’une ressource en tant qu’ensemble de ressources
  • Placer une ressource dans un jeu de ressources incorrect
  • Marquage incorrect d’une ressource comme n’étant pas un jeu de ressources

Pour personnaliser ou remplacer la façon dont Microsoft Purview détecte les ressources qui sont regroupées en tant que jeux de ressources et comment elles sont affichées dans le catalogue, vous pouvez définir des règles de modèle dans le centre de gestion. Pour obtenir des instructions pas à pas et la syntaxe, consultez Règles de modèle d’ensemble de ressources.

Limitations connues avec les jeux de ressources

  • Par défaut, les ressources du jeu de ressources sont supprimées uniquement par une analyse si les jeux de ressources avancés sont activés. Si cette fonctionnalité est désactivée, les ressources du jeu de ressources peuvent uniquement être supprimées manuellement ou via l’API.

Prochaines étapes

Pour commencer à utiliser Microsoft Purview, consultez Démarrage rapide : Créer un compte Microsoft Purview.