En savoir plus sur les types d’informations sensibles exacts basés sur la correspondance de données

Article
02/23/2024

Les types d’informations sensibles (SIT) sont utilisés pour aider à identifier les données sensibles afin que vous puissiez les empêcher d’être partagées par inadvertance ou de manière inappropriée. Ils sont également utilisés pour localiser les données pertinentes dans eDiscovery et pour appliquer des actions de gouvernance à certains types d’informations. Vous définissez un sit personnalisé en fonction des éléments suivants :

modèles
mot clé preuves telles que l’employé, le numéro de sécurité sociale ou la pièce d’identité
caractère à proximité de la preuve dans un modèle particulier
niveaux de confiance

Mais que se passe-t-il si vous voulez un SIT personnalisé qui utilise des valeurs de données exactes ou presque exactes, au lieu d’un sit qui trouve des correspondances basées sur des modèles génériques ? Avec la classification basée sur la correspondance exacte des données (EDM), vous pouvez créer un type d’informations sensibles personnalisé conçu pour :

être dynamique et actualisé facilement ;
moins de faux positifs
utiliser des données sensibles structurées ;
gérer les informations sensibles de manière plus sécurisée, sans les partager avec quiconque, y compris Microsoft
être utilisé avec différents services de cloud computing Microsoft.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez dès maintenant au hub d’essais portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

La classification basée sur EDM vous permet de créer des SIT personnalisés qui font référence à des valeurs exactes dans une base de données d’informations sensibles. La base de données peut être actualisée quotidiennement et peut contenir jusqu’à 100 millions de lignes de données. Ainsi, à mesure que les employés, les patients et les clients vont et viennent, et que les enregistrements changent, vos types d’informations sensibles personnalisés restent à jour et applicables. Vous pouvez également utiliser la classification basée sur EDM avec des stratégies, telles que des stratégies de Protection contre la perte de données Microsoft Purview ou des stratégies de fichier Sécurité des applications infonuagiques Microsoft.

Le diagramme suivant montre les principes fondamentaux de la classification EDM :

Classification basée sur EDM.

Remarque

Protection des données Microsoft Purview prend en charge les langues suivantes qui utilisent des jeux de caractères codés sur deux octets :

Chinois (simplifié)
Chinois (traditionnel)
Korean
Japanese

Cette prise en charge est disponible pour les types d’informations sensibles. Pour plus d’informations, consultez Prise en charge de la protection des informations pour les jeux de caractères sur deux octets : Notes de publication (préversion) .

Quelles sont les différences dans un sit EDM

Lorsque vous utilisez des SIT EDM, il est utile de comprendre quelques concepts qui leur sont propres.

Schéma

Un schéma est un fichier XML. Microsoft Purview utilise le schéma pour déterminer si vos données contiennent ou non des chaînes qui correspondent à celles que vos types d’informations sensibles sont conçus pour détecter.

Le fichier XML de schéma définit :

Nom du schéma, plus tard appelé magasin de données.
Noms de champs que contient votre table source d’informations sensibles. Il existe un mappage 1 :1 des noms de champs de schéma aux noms de colonnes dans la table source d’informations sensibles.
Quels champs de preuve corroboratifs nécessitent le mode de correspondance à plusieurs jetons.
Quels champs de données peuvent faire l’objet d’une recherche.
Indique si les correspondances configurables sont prises en charge pour chaque champ. Une correspondance configurable est une avec des paramètres qui modifient une recherche, comme ignorer les délimiteurs et la casse dans les valeurs recherchées.

Table source d’informations sensibles

La table source d’informations sensibles contient les valeurs que le sit EDM recherche. La table est composée de colonnes et de lignes. Les en-têtes de colonne sont les noms de champs, les lignes sont des instances d’éléments et chaque cellule d’une ligne contient les valeurs de cet élément instance pour ce champ.

Voici un exemple simple de table de source d’informations sensibles.

Prénom	Nom	Date of Birth
Esaïe	Langer	05-05-1960
Ana	Bowman	11-24-1971
Oscar	Ward	02-12-1998

Package de règles

Chaque type d’informations sensibles a un package de règles. Vous utilisez le package de règles dans un sit EDM pour définir les différents composants de votre sit EDM. Le tableau suivant fournit une description de chaque composant.

Composant	Description
Match	Spécifie l’élément principal (champ de données) à utiliser dans la recherche exacte. Il peut s’agir d’une expression régulière avec ou sans validation de somme de contrôle, d’une liste mot clé, d’un dictionnaire mot clé ou d’une fonction.
Classification	Spécifie la correspondance de type d’informations sensibles qui déclenche une recherche EDM.
Éléments de prise en charge	Les éléments qui, lorsqu’ils sont trouvés, fournissent des preuves qui contribuent à augmenter la confiance de la correspondance. Par exemple, l’occurrence d’un nom de famille à proximité d’un numéro de sécurité sociale réel. Un élément de prise en charge peut être une expression régulière avec ou sans validation de somme de contrôle, une liste mot clé, un dictionnaire mot clé ou une correspondance de chaîne à jeton unique ou multi-jeton.
Niveau de confiance (Élevé, Moyen, Faible)	Indication de la quantité de preuves à l’appui détectée en plus de l’élément principal. Plus un élément contient de preuves à l’appui, plus le niveau de confiance qu’un élément correspondant contient les informations sensibles que vous recherchez est élevé. Pour plus d’informations sur les niveaux de confiance, consultez Parties fondamentales d’un type d’informations sensibles.
Proximité	Nombre de caractères entre l’élément principal et l’élément de prise en charge.

Vous fournissez votre propre schéma et vos propres données

Microsoft Purview est fourni avec de nombreux SIT intégrés qui sont prédéfinis. Ces SIT sont fournis avec des schémas, des modèles REGEX, des mots clés et des niveaux de confiance. Toutefois, avec les SIT EDM, vous êtes responsable de la définition du schéma, ainsi que des champs principal et secondaire qui identifient les éléments sensibles. Étant donné que le schéma et les valeurs de données primaires et secondaires sont toutes très sensibles, vous les chiffrez via une fonction de hachage qui inclut une valeur de sel générée de manière aléatoire ou auto-fournie. Seules les valeurs hachées sont chargées sur le service, de sorte que vos données sensibles ne sont jamais ouvertes.

Éléments de prise en charge principaux et secondaires

Lorsque vous créez un sit EDM, vous définissez un champ d’élément principal dans le package de règles. EDM recherche ensuite l’élément principal dans tout votre contenu. Pour qu’EDM puisse les détecter, les éléments principaux doivent être détectables via un sit existant.

Remarque

Pour obtenir la liste complète des SIT disponibles, consultez Définitions d’entité de type d’informations sensibles

Vous devez trouver un sit intégré qui détecte les informations sensibles que vous souhaitez que votre sit EDM détecte. Par exemple, si votre schéma SIT EDM a le numéro de sécurité sociale américain comme élément principal, lorsque vous créez votre schéma EDM, vous l’avez associé au numéro de sécurité sociale (SSN) sit des États-Unis . Les éléments principaux doivent suivre un modèle défini pour être détectés.

Lorsque l’élément principal est trouvé dans un élément analysé, EDM recherche ensuite les éléments secondaires (également appelés éléments de support ). Contrairement aux éléments primaires, les éléments secondaires ont la possibilité de suivre un modèle. Si les éléments secondaires contiennent plusieurs jetons, ces éléments doivent être associés à un sit capable de détecter ce contenu ou configurés pour la correspondance à plusieurs jetons. Dans tous les cas, les éléments secondaires doivent se trouver dans une certaine proximité de l’élément principal pour qu’une correspondance soit détectée.

Fonctionnement de la correspondance

EDM fonctionne en comparant les chaînes de vos documents et e-mails aux valeurs de la table source d’informations sensibles. Il utilise cette comparaison pour déterminer si les valeurs du contenu analysé sont présentes dans la table. La détermination est effectuée en comparant les hachages de chiffrement unidirectionnel.

Conseil

Vous pouvez utiliser à la fois les SIT EDM et les SIT prédéfinis sur lesquels ils sont basés, ensemble dans les règles DLP pour améliorer la détection des données sensibles. Utilisez le SIT EDM avec des niveaux de confiance plus élevés et le SIT prédéfini avec des niveaux de confiance inférieurs. Par exemple, utilisez un SIT EDM qui recherche le numéro de sécurité sociale et d’autres données connexes avec des exigences strictes avec une confiance élevée. S’il est configuré pour les correspondances à haut niveau de confiance, EDM génère une correspondance DLP lorsque seules quelques instances sont détectées. Pour déclencher une correspondance DLP quand un plus grand nombre d’occurrences sont détectées, utilisez un SIT intégré, tel que le numéro de sécurité sociale des États-Unis.

Fonctionnement des éléments de prise en charge avec EDM

Comme indiqué dans Ce qui est différent dans un SIT EDM, les éléments de soutien sont des éléments qui, lorsqu’ils sont trouvés, fournissent des preuves qui contribuent à augmenter la confiance de la correspondance.

Avec la prise en charge des SIT EDM, vous pouvez rechercher et détecter les éléments de prise en charge composés de plusieurs champs. Les correspondances d’éléments de prise en charge peuvent être constituées de listes mot clé, de dictionnaires mot clé, de chaînes alphanumériques uniques ou de chaînes à plusieurs jetons.

Examinons un exemple. Supposez que vous souhaitez détecter les numéros de sécurité sociale des États-Unis. Pour augmenter la confiance des correspondances, vos éléments de prise en charge incluent first name, last nameet date of birth (DoB). Par conséquent, votre table source ressemble à ceci :

SSN	FirstName	LastName	Dob
987-65-4320	Esaïe	Langer	05-05-1960
078-05-1120	Ana	Bowman	11-24-1971
219-09-9999	Oscar	Ward	02-12-1998

Lorsque vous recherchez des éléments de prise en charge correspondants dans un fichier protégé, votre sit EDM vérifie chaque élément de prise en charge (individuellement et en combinaison) une fois l’élément principal détecté.

Par instance, disons que le premier numéro de sécurité sociale est détecté. La fonctionnalité de correspondance exacte des données recherche ensuite des combinaisons d’éléments de prise en charge dans toutes les colonnes de votre table source :

Esaïe
Langer
05-05-1960
Isaiah Langer
Isaïe 05-05-1960
Langer 05-05-1960
Isaïe Langer 05-05-1960

Correspondance à plusieurs jetons

La correspondance multi-jetons est conçue pour être utilisée lorsque votre champ de preuve corroborative contient des valeurs à plusieurs jetons, mais que la mise en correspondance de ces valeurs à un SIT n’est pas facilement réalisée. Par instance, lorsque vous avez un Address champ contenant des valeurs telles que 1 Microsoft Way, Redmond, WA ou 123 Main Street, New York, NY.

Cette fonctionnalité permet à EDM de comparer les hachages de mots consécutifs dans le contenu avec les hachages des champs multi-jetons dans votre source de données. S’ils sont identiques, EDM produit une correspondance. De cette façon, EDM peut détecter des champs à jetons multiples tels que des noms, des adresses, des conditions médicales ou tout autre champ de preuve corroborative qui peut contenir plusieurs mots, à condition qu’ils soient marqués comme multi-jetons dans votre schéma EDM.

Par exemple, si vous sélectionnez la correspondance à plusieurs jetons comme option de correspondance, vous obtenez deux avantages supplémentaires :

Vos stratégies détectent le contenu qui correspond à plusieurs champs dans les colonnes de votre table source.
Votre table source peut inclure des champs avec des valeurs de chaîne qui se composent d’un nombre préconfiguré de mots. Le tableau suivant présente un exemple de table source :

SSN	Nom	Rue
987-65-4320	Isaiah Langer	1432, chemin Lincoln
078-05-1120	Ana Bowman	8250 First Street
219-09-9999	Oscar Ward	424 205th Avenue

Avec la correspondance à plusieurs jetons, les champs Name et Street Address sont mis en correspondance en tant que chaînes d’éléments de prise en charge indépendantes et en tant que champs individuels. Par conséquent, en cas de correspondance en tant que chaînes à jetons multiples comme éléments de support pour le numéro de sécurité sociale 987-65-4320, les correspondances sont les suivantes :

Isaiah Langer
1432, chemin Lincoln

En cas de correspondance en combinaison, la correspondance se présente comme suit :

Isaiah Langer + 1432 Lincoln Road

La correspondance à plusieurs jetons est également prise en charge pour les jeux de caractères codés sur deux octets, qui n’utilisent généralement pas d’espaces pour séparer les mots.

Services pris en charge par EDM

Service	Emplacements
Protection contre la perte de données Microsoft Purview	- SharePoint - OneDrive - Conversation Teams - Exchange Online - Appareils
Microsoft Defender for Cloud Apps	- SharePoint - OneDrive
Étiquetage automatique (côté service)	- SharePoint - OneDrive - Exchange Online
Étiquetage automatique (côté client)	- Word - Excel - PowerPoint - Clients de bureau Exchange
Clé gérée par le client	- SharePoint - OneDrive - Conversation Teams - Exchange Online - Word - Excel - PowerPoint - Clients de bureau Exchange - Appareils
eDiscovery	- SharePoint - OneDrive - Conversation Teams - Exchange Online - Word - Excel - PowerPoint - Clients de bureau Exchange
Gestion des risques internes	- SharePoint - OneDrive - Conversation Teams - Exchange Online - Word - Excel - PowerPoint - Clients de bureau Exchange

Voir aussi

Démarrage avec des types d’informations sensibles basés sur des correspondances de données exactes

Partager via