Meilleures pratiques en matière d’analyse Microsoft Purview
Les solutions de gouvernance Microsoft Purview prennent en charge l’analyse automatisée des sources de données locales, multiclouds et SaaS (Software as a Service).
L’exécution d’une analyse appelle le processus pour ingérer des métadonnées à partir des sources de données inscrites. Les métadonnées organisées à la fin du processus d’analyse et de curation incluent des métadonnées techniques. Ces métadonnées peuvent inclure des noms de ressources de données tels que des noms de table ou de fichiers, la taille de fichier, les colonnes et la traçabilité des données. Les détails du schéma sont également capturés pour les sources de données structurées. Un système de gestion de base de données relationnelle est un exemple de ce type de source.
Le processus de curation applique des étiquettes de classification automatisées sur les attributs de schéma en fonction de l’ensemble de règles d’analyse configuré. Les étiquettes de confidentialité sont appliquées si votre compte Microsoft Purview est connecté au portail de conformité Microsoft Purview.
Importante
Si vous avez des stratégies Azure qui empêchent les mises à jour des comptes de stockage, cela entraîne des erreurs pour le processus d’analyse de Microsoft Purview. Suivez le guide des balises d’exception Microsoft Purview pour créer une exception pour les comptes Microsoft Purview.
Pourquoi avez-vous besoin de bonnes pratiques pour gérer les sources de données ?
Les bonnes pratiques vous permettent de :
- Optimiser les coûts.
- Créez l’excellence opérationnelle.
- Améliorer la conformité de la sécurité.
- Gagnez en efficacité en matière de performances.
Inscrire une source et établir une connexion
Les considérations et recommandations de conception suivantes vous aident à inscrire une source et à établir une connexion.
Considérations relatives à la conception
- Utilisez des regroupements pour créer la hiérarchie qui s’aligne sur la stratégie de l’organization, comme la zone géographique, la fonction métier ou la source de données. La hiérarchie définit les sources de données à inscrire et analyser.
- Par défaut, vous ne pouvez pas inscrire des sources de données plusieurs fois dans le même compte Microsoft Purview. Cette architecture permet d’éviter le risque d’affecter un contrôle d’accès différent à la même source de données.
Recommandations de conception
Si les métadonnées de la même source de données sont consommées par plusieurs équipes, vous pouvez inscrire et gérer la source de données dans une collection parente. Vous pouvez ensuite créer des analyses correspondantes sous chaque sous-collection. De cette façon, les ressources pertinentes apparaissent sous chaque collection enfant. Les sources sans parents sont regroupées dans une zone en pointillés dans la vue cartographique. Aucune flèche ne les lie aux parents.
Utilisez l’option Azure Multiple si vous devez inscrire plusieurs sources, telles que des abonnements Azure ou des groupes de ressources, dans le cloud. Pour plus d’informations, consultez la documentation suivante :
Une fois qu’une source de données est inscrite, vous pouvez analyser la même source plusieurs fois, au cas où la même source serait utilisée différemment par différentes équipes ou unités commerciales.
Pour plus d’informations sur la définition d’une hiérarchie pour l’inscription de sources de données, consultez Bonnes pratiques sur l’architecture des collections.
Analyse
Les considérations et recommandations de conception suivantes sont organisées en fonction des étapes clés impliquées dans le processus d’analyse.
Considérations relatives à la conception
- Une fois la source de données inscrite, configurez une analyse pour gérer l’analyse et la curation automatisées et sécurisées des métadonnées.
- La configuration de l’analyse inclut la configuration du nom de l’analyse, de l’étendue de l’analyse, du runtime d’intégration, de la fréquence du déclencheur d’analyse, de l’ensemble de règles d’analyse et du jeu de ressources de manière unique pour chaque source de données par fréquence d’analyse.
- Avant de créer des informations d’identification, tenez compte de vos types de sources de données et de vos exigences de mise en réseau. Ces informations vous aident à déterminer la méthode d’authentification et le runtime d’intégration dont vous avez besoin pour votre scénario.
Recommandations de conception
Après avoir inscrit votre source dans la collection appropriée, planifiez et suivez l’ordre indiqué ici lorsque vous configurez l’analyse. Cet ordre de processus vous permet d’éviter des coûts inattendus et de retravailler.
Identifiez vos exigences de classification à partir des règles de classification intégrées du système. Vous pouvez également créer des règles de classification personnalisées spécifiques, si nécessaire. Basez-les sur des exigences spécifiques du secteur, de l’entreprise ou de la région, qui ne sont pas disponibles prêtes à l’emploi :
- Consultez les bonnes pratiques de classification.
- Découvrez comment créer une règle de classification et de classification personnalisée.
Créez des ensembles de règles d’analyse avant de configurer l’analyse.
Lorsque vous créez l’ensemble de règles d’analyse, vérifiez les points suivants :
Vérifiez si l’ensemble de règles d’analyse par défaut du système est suffisant pour la source de données analysée. Sinon, définissez votre ensemble de règles d’analyse personnalisées.
L’ensemble de règles d’analyse personnalisée peut inclure à la fois le système par défaut et personnalisé. Par conséquent, effacez ces options qui ne sont pas pertinentes pour les ressources de données analysées.
Si nécessaire, créez un ensemble de règles personnalisé pour exclure les étiquettes de classification indésirables. Par exemple, l’ensemble de règles système contient des modèles de code gouvernementaux génériques pour la planète, pas seulement les États-Unis. Vos données peuvent correspondre au modèle d’un autre type, tel que « Numéro de permis de conduire en Belgique ».
Limitez les règles de classification personnalisées aux étiquettes les plus importantes et les plus pertinentes pour éviter tout encombrement. Vous ne souhaitez pas que trop d’étiquettes soient étiquetées sur la ressource.
Si vous modifiez la classification personnalisée ou l’ensemble de règles d’analyse, une analyse complète est déclenchée. Configurez l’ensemble de règles de classification et d’analyse de manière appropriée pour éviter de retravailler et d’effectuer des analyses complètes coûteuses.
Remarque
Lorsque vous analysez un compte de stockage, Microsoft Purview utilise un ensemble de modèles définis pour déterminer si un groupe de ressources forme un jeu de ressources. Vous pouvez utiliser des règles de modèle d’ensemble de ressources pour personnaliser ou remplacer la façon dont Microsoft Purview détecte les ressources qui sont regroupées en tant que jeux de ressources. Les règles déterminent également la façon dont les ressources sont affichées dans le catalogue. Pour plus d’informations, consultez Créer des règles de modèle d’ensemble de ressources. Cette fonctionnalité a des considérations de coût. Pour plus d’informations, consultez la page de tarification.
Configurez une analyse pour les sources de données inscrites.
Nom de l’analyse : par défaut, Microsoft Purview utilise la convention de nommage SCAN-[A-Z][a-z][a-z], ce qui n’est pas utile lorsque vous essayez d’identifier une analyse que vous avez exécutée. Veillez à utiliser une convention d’affectation de noms explicite. Par instance, vous pouvez nommer l’environnement d’analyse-source-frequency-time en tant que DEVODS-Daily-0200. Ce nom représente une analyse quotidienne à 0200 heures.
Authentification : Microsoft Purview offre différentes méthodes d’authentification pour l’analyse des sources de données, en fonction du type de source. Il peut s’agir de sources cloud Azure ou locales ou tierces. Suivez le principe de privilège minimum pour la méthode d’authentification dans cet ordre de préférence :
- Microsoft Purview MSI - Managed Service Identity (par exemple, pour les sources Azure Data Lake Storage Gen2)
- Identité managée affectée par l’utilisateur
- Principal de service
- Authentification SQL (par exemple, pour les sources locales ou Azure SQL)
- Clé de compte ou authentification de base (par exemple, pour les sources SAP S/4HANA)
Pour plus d’informations, consultez le guide pratique pour gérer les informations d’identification.
Remarque
Si un pare-feu est activé pour le compte de stockage, vous devez utiliser la méthode d’authentification d’identité managée lorsque vous configurez une analyse. Lorsque vous configurez de nouvelles informations d’identification, le nom des informations d’identification ne peut contenir que des lettres, des chiffres, des traits de soulignement et des traits d’union.
Runtime d’intégration
- Pour plus d’informations, consultez Bonnes pratiques en matière d’architecture réseau.
- Si le runtime d’intégration auto-hébergé (SHIR) est supprimé, toutes les analyses en cours qui s’appuient dessus échouent.
- Lorsque vous utilisez SHIR, assurez-vous que la mémoire est suffisante pour la source de données analysée. Par exemple, lorsque vous utilisez SHIR pour analyser une source SAP, si vous voyez « Erreur de mémoire insuffisante » :
- Vérifiez que la machine SHIR dispose de suffisamment de mémoire. La quantité recommandée est de 128 Go.
- Dans le paramètre d’analyse, définissez la mémoire maximale disponible comme valeur appropriée, par exemple 100.
- Pour plus d’informations, consultez les conditions préalables dans Analyser et gérer SAP ECC Microsoft Purview.
Analyse de l’étendue
Lorsque vous configurez l’étendue de l’analyse, sélectionnez uniquement les ressources pertinentes au niveau granulaire ou parent. Cette pratique garantit que le coût de l’analyse est optimal et que les performances sont efficaces. Toutes les ressources futures sous un certain parent seront automatiquement sélectionnées si le parent est entièrement ou partiellement vérifié.
Voici quelques exemples pour certaines sources de données :
- Pour Azure SQL base de données ou Data Lake Storage Gen2, vous pouvez limiter votre analyse à des parties spécifiques de la source de données. Sélectionnez les éléments appropriés dans la liste, tels que les dossiers, les sous-dossiers, les collections ou les schémas.
- Pour les sources Oracle, Hive Metastore Database et Teradata, une liste spécifique de schémas à exporter peut être spécifiée via des valeurs séparées par des points-virgules ou des modèles de nom de schéma à l’aide d’expressions SQL LIKE.
- Pour une requête Google Big, une liste spécifique de jeux de données à exporter peut être spécifiée par le biais de valeurs séparées par des points-virgules.
- Lorsque vous créez une analyse pour un compte AWS entier, vous pouvez sélectionner des compartiments spécifiques à analyser. Lorsque vous créez une analyse pour un compartiment AWS S3 spécifique, vous pouvez sélectionner des dossiers spécifiques à analyser.
- Pour Erwin, vous pouvez définir l’étendue de votre analyse en fournissant une liste séparée par des points-virgules de chaînes de localisateur de modèle Erwin.
- Pour Cassandra, une liste spécifique d’espaces clés à exporter peut être spécifiée par le biais de valeurs séparées par des points-virgules ou de modèles de nom d’espaces clés à l’aide d’expressions SQL LIKE.
- Pour Looker, vous pouvez définir l’étendue de votre analyse en fournissant une liste de projets Looker séparés par des points-virgules.
- Pour le locataire Power BI, vous pouvez uniquement spécifier s’il faut inclure ou exclure l’espace de travail personnel.
En général, utilisez « ignorer les modèles », où ils sont pris en charge, en fonction des caractères génériques (par exemple, pour les lacs de données) pour exclure les fichiers temporaires, les fichiers de configuration, les tables système SGBDR ou les tables de sauvegarde ou STG.
Lorsque vous analysez des documents ou des données non structurées, évitez d’analyser un grand nombre de ces documents. L’analyse traite les 20 premiers Mo de ces documents et peut entraîner une plus longue durée d’analyse.
Ensemble de règles d’analyse
- Lorsque vous sélectionnez l’ensemble de règles d’analyse, veillez à configurer le système ou l’ensemble de règles d’analyse personnalisé qui a été créé précédemment.
- Vous pouvez créer des types de fichiers personnalisés et renseigner les détails en conséquence. Actuellement, Microsoft Purview ne prend en charge qu’un seul caractère dans le délimiteur personnalisé. Si vous utilisez des délimiteurs personnalisés, tels que ~, dans vos données réelles, vous devez créer un nouvel ensemble de règles d’analyse.
Type d’analyse et planification
- Le processus d’analyse peut être configuré pour exécuter des analyses complètes ou incrémentielles.
- Exécutez les analyses pendant les heures creuses ou hors activité pour éviter toute surcharge de traitement sur la source.
- La périodicité de début à doit être inférieure d’au moins 1 minute à l’heure d’analyse planifiée, sinon, l’analyse sera déclenchée dans la périodicité suivante.
- L’analyse initiale est une analyse complète, et chaque analyse suivante est incrémentielle. Les analyses suivantes peuvent être planifiées en tant qu’analyses incrémentielles périodiques.
- La fréquence des analyses doit s’aligner sur le calendrier de gestion des modifications de la source de données ou des exigences métier. Par exemple :
- Si la structure source peut changer chaque semaine, la fréquence d’analyse doit être synchronisée. Les modifications incluent les nouvelles ressources ou les champs d’une ressource qui sont ajoutés, modifiés ou supprimés.
- Si la classification ou les étiquettes de confidentialité sont censées être à jour sur une base hebdomadaire, peut-être pour des raisons réglementaires, la fréquence d’analyse doit être hebdomadaire. Par exemple, si des fichiers de partitions sont ajoutés chaque semaine dans un lac de données source, vous pouvez planifier des analyses mensuelles. Vous n’avez pas besoin de planifier des analyses hebdomadaires, car les métadonnées ne sont pas modifiées. Cette suggestion suppose qu’il n’existe aucun nouveau scénario de classification.
- Lorsque vous planifiez l’exécution d’une analyse le jour de sa création, l’heure de début doit être antérieure à l’heure d’analyse d’au moins une minute.
- La durée maximale d’exécution de l’analyse est de sept jours, probablement en raison de problèmes de mémoire. Cette période exclut le processus d’ingestion. Si la progression n’a pas été mise à jour après sept jours, l’analyse est marquée comme ayant échoué. Le processus d’ingestion (dans le catalogue) n’a actuellement pas de limitation de ce type.
Annulation des analyses
- Actuellement, les analyses ne peuvent être annulées ou suspendues que si la status de l’analyse est passée à l’état « En cours » à partir de « En file d’attente » après avoir déclenché l’analyse.
- L’annulation d’une analyse enfant individuelle n’est pas prise en charge.
Points à noter
- Si un champ ou une colonne, une table ou un fichier est supprimé du système source après l’exécution de l’analyse, il ne sera répercuté (supprimé) dans Microsoft Purview qu’après la prochaine analyse complète ou incrémentielle planifiée.
- Une ressource peut être supprimée d’un catalogue Microsoft Purview à l’aide de l’icône Supprimer sous le nom de la ressource. Cette action ne supprime pas l’objet dans la source. Si vous exécutez une analyse complète sur la même source, elle est réinsérée dans le catalogue. Si vous avez planifié une analyse hebdomadaire ou mensuelle à la place (incrémentielle), la ressource supprimée n’est pas choisie, sauf si l’objet est modifié à la source. Par exemple, si une colonne est ajoutée ou supprimée de la table.
- Pour comprendre le comportement des analyses suivantes après la modification manuelle d’une ressource de données ou d’un schéma sous-jacent via le portail de gouvernance Microsoft Purview, consultez Détails de la ressource du catalogue.
- Pour plus d’informations, consultez le tutoriel sur l’affichage, la modification et la suppression de ressources.