En savoir plus sur les types d’informations sensibles

Article
02/24/2024

L’identification et la classification des éléments sensibles qui sont sous le contrôle de votre organization constituent la première étape de la discipline Information Protection. Microsoft Purview propose trois façons d’identifier les éléments afin qu’ils puissent être classifiés :

manuellement, par les utilisateurs
via la reconnaissance de modèle automatisée, comme avec les types d’informations sensibles
via le Machine Learning

Les types d’informations sensibles (SIT) sont des classifieurs basés sur des modèles. Ils détectent les informations sensibles telles que la sécurité sociale, les carte de crédit ou les numéros de compte bancaire pour identifier les éléments sensibles. Pour obtenir la liste complète de tous les SIT, consultez Définitions d’entité de type d’informations sensibles.

Microsoft fournit un grand nombre de SIT préconfigurés ou vous pouvez créer les vôtres.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez dès maintenant au hub d’essais portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Les types d’informations sensibles sont utilisés dans

Catégories de types d’informations sensibles

Types d’informations sensibles intégrés

Microsoft a créé ces SIT et ils s’affichent dans la console de conformité par défaut. Ces SIT ne peuvent pas être modifiés, mais vous pouvez les utiliser comme modèles en les copiant pour créer des types d’informations sensibles personnalisés. Consultez Définitions d’entité de type d’informations sensibles pour obtenir la liste complète de tous les SIT.

Types d’informations sensibles d’entité nommée

Les SIT d’entité nommée s’affichent également dans la console de conformité par défaut. Ils détectent les noms des personnes, les adresses physiques et les conditions médicales. Ils ne peuvent pas être modifiés ou copiés. Pour plus d’informations, consultez En savoir plus sur les entités nommées.

Les SIT d’entité nommée sont de deux types :

non groupé

Ces SIT d’entité nommées ont un focus plus étroit, comme un seul pays ou une seule région, ou une seule classe de termes. Utilisez-les lorsque vous avez besoin d’une stratégie de protection contre la perte de données (DLP) avec une étendue de détection plus étroite. Consultez Exemples de SIT d’entité nommée.

Livré

Les SIT d’entité nommée groupées détectent toutes les correspondances possibles dans une classe, telles que Toutes les adresses physiques. Utilisez-les comme critères généraux dans vos stratégies DLP pour détecter les éléments sensibles. Consultez Exemples de SIT d’entité nommée.

Types d’informations sensibles personnalisés

Si les types d’informations sensibles préconfigurés ne répondent pas à vos besoins, vous pouvez créer vos propres types d’informations sensibles personnalisés que vous définissez entièrement ou vous pouvez copier l’un des types intégrés et le modifier. Pour plus d'informations, consultez

Créez un type d’informations sensibles personnalisé dans le portail de conformité Microsoft Purview.

Correspondance exacte des données avec les types d’informations sensibles

Tous les SIT basés sur la correspondance exacte des données (EDM) sont créés à partir de zéro. Vous les utilisez pour détecter les éléments qui ont des valeurs exactes, que vous définissez dans une base de données d’informations sensibles. Pour plus d’informations, consultez En savoir plus sur les types d’informations sensibles basés sur la correspondance exacte des données.

Parties fondamentales d’un type d’informations sensibles

Chaque entité SIT (Sensitive Information Type) se compose des champs suivants :

Nom: Indique comment le type d’informations sensibles est référencé.
Description: Explication de ce que recherche le type d’informations sensibles.
Modèle: Définit ce qu’un sit détecte. Il se compose des composants suivants : élément principal, éléments de prise en charge, niveau de confiance et proximité.

Le tableau suivant décrit chaque composant des modèles utilisés pour définir les types d’informations sensibles.

Composant pattern	Description
Élément principal	Élément main recherché par le type d’informations sensibles. Il peut s’agir d’une expression régulière avec ou sans validation de somme de contrôle, d’une liste mot clé, d’un dictionnaire mot clé ou d’une fonction. Chacun de ces types d’éléments peut être sélectionné dans la liste des SIT existants ou peut être personnalisé par un utilisateur disposant d’autorisations d’administrateur. Une fois qu’un élément est défini, il apparaît dans la liste des éléments existants, avec ceux qui sont intégrés.
Élément de prise en charge	Élément qui agit comme preuve corroborante. Lorsqu’ils sont inclus, les éléments de prise en charge contribuent à augmenter le niveau de confiance en ce qui concerne la précision des correspondances détectées. Par exemple, si l’élément principal est défini comme `SSN` (composé de neuf chiffres) et que l’mot clé numéro de sécurité sociale (SSN) est utilisé comme élément de soutien lorsqu’il est trouvé à `SSN`proximité de , la confiance que le `SSN` détecté est réellement un numéro de sécurité sociale est plus élevée que si le numéro de sécurité sociale (SSN) mot clé n’est pas présent. Un élément de prise en charge peut être une expression régulière (avec ou sans validation de somme de contrôle), une liste mot clé ou un dictionnaire mot clé.
Niveau de confiance	Il existe trois niveaux de confiance en ce qui concerne les correspondances détectées : élevé, moyen et faible. Le niveau de confiance reflète la quantité de preuves à l’appui détectées avec l’élément principal. Plus un élément détecté contient de preuves à l’appui, plus la confiance qu’un élément correspondant contient les informations sensibles que vous recherchez est élevée. Pour plus d’informations sur les niveaux de confiance, consultez la vidéo incluse plus loin dans cet article.
Proximité	Spécifie la proximité d’un élément de prise en charge par rapport à un élément principal, en termes de nombre de caractères entre eux.

Comprendre la proximité

Le diagramme suivant montre comment fonctionne la détection de correspondance en ce qui concerne la proximité. Dans cet exemple, l’élément principal est le SSN champ et la définition SIT exige que chaque instance d’une SSN valeur se trouve à proximité spécifiée d’au moins l’un des éléments suivants :

AccountNumber
Name
DateOfBirth

Dans le diagramme, nous voyons que les données en cours de vérification incluent trois instances différentes du SSN champ : SSN1, SSN2, SSN3et SSN4.

Pour comprendre le fonctionnement de la proximité, commençons par examiner certains exemples de critères de détection. Ici, étaient voulus détecter des numéros de sécurité sociale à neuf chiffres. Les critères de détection exigent qu’une expression régulière à neuf chiffres (élément principal) soit trouvée conjointement avec la preuve de soutien (parmi les AccountNumberchamps , Nameet DateOfBirth ) qui apparaît dans les 250 caractères (la proximité).

Comme illustré dans le diagramme, seuls les éléments SSN1 principaux et SSN4 répondent aux critères de détection que vous venez de décrire. Voyons cela plus en détail.

Dans le cas de SSN1, la DateOfBirth valeur se trouve dans la fenêtre de proximité spécifiée de 250 caractères, donc une correspondance est détectée.
Dans les deux cas de SSN2 et SSN3, aucun des éléments de prise en charge ne se produit dans les 250 caractères de l’élément principal, de sorte que ces valeurs ne sont pas détectées comme une correspondance. Toutefois, lorsque vous examinez la fenêtre de proximité pour SSN2 dans le diagramme, vous pouvez vous demander : Pourquoi n’y a-t-il pas de correspondance pour SSN2? La fenêtre de SSN2 proximité ne s’étend-elle pas à l’élément Name ? C’est une bonne question. La réponse est : Pas tout à fait. Bien que la fenêtre de proximité s’étende à la Name valeur, elle n’inclut pas la valeur entière , de sorte que le modèle ne correspond pas.
Enfin, dans le cas de , il existe deux éléments de SSN4prise en charge dans la fenêtre de proximité, à la fois Name et DateOfBirth, de sorte que ce modèle correspond également.

Apprenez-en davantage sur les niveaux de confiance dans cette courte vidéo.

Exemple de type d’informations sensibles

Numéro d’identité nationale (DNI) en Argentine

Format

Huit chiffres séparés par des points

Modèle

Huit chiffres :

deux chiffres
un point
trois chiffres
un point
trois chiffres

Somme de contrôle

Non

Définition

Une stratégie DLP a une confiance moyenne qu’elle a détecté ce type d’informations sensibles si, à proximité de 250 caractères :

L’expression régulière Regex_argentina_national_id trouve un contenu qui correspond au modèle.
Un mot clé figurant dans la liste Keyword_argentina_national_id est trouvé.

<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Mots-clés

Keyword_argentina_national_id

Argentina National Identity number
Identité
Carte d’identité nationale d’identification
DNI
Registre national des personnes (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

En savoir plus sur les niveaux de confiance

Dans une définition d’entité de type d’informations sensibles, le niveau de confiance reflète la quantité de preuves associées détectées en plus de l’élément principal. Plus un élément contient de preuves à l’appui, plus le niveau de confiance qu’un élément correspondant contient les informations sensibles que vous recherchez est élevé. Par exemple, les correspondances avec un niveau de confiance élevé contiennent davantage de preuves à l’appui à proximité de l’élément principal, tandis que les correspondances avec un niveau de confiance faible contiennent peu ou pas de preuves à proximité.

Un niveau de confiance élevé retourne le moins de faux positifs, mais peut entraîner davantage de faux négatifs. Les niveaux de confiance faibles ou moyens retournent plus de faux positifs, mais peu de faux négatifs à zéro.

faible niveau de confiance : les éléments correspondants contiennent le moins de faux négatifs, mais le plus de faux positifs. Une confiance faible renvoie toutes les correspondances de confiance faible, moyenne et élevée. Le niveau de confiance faible a une valeur de 65.
confiance moyenne : les éléments correspondants contiennent un nombre moyen de faux positifs et de faux négatifs. Confiance moyenne retourne toutes les correspondances de confiance moyenne et haute. Le niveau de confiance moyen a une valeur de 75.
confiance élevée : les éléments correspondants contiennent le moins de faux positifs, mais le plus de faux négatifs. Confiance élevée retourne uniquement des correspondances de confiance élevée et a une valeur de 85.

Vous devez utiliser des modèles de niveau de confiance élevé avec des nombres faibles, par exemple cinq à 10, et des modèles de confiance faible avec des nombres plus élevés, par exemple 20 ou plus.

Remarque

Si vous avez des stratégies existantes ou des types d’informations sensibles (SIT) personnalisés définis à l’aide de niveaux de confiance basés sur les nombres (également connu sous le nom de précision), ils sont automatiquement mappés aux trois niveaux de confiance discrets ; confiance faible, confiance moyenne et confiance élevée dans l’interface utilisateur du Centre de sécurité @ conformité.

Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance compris entre 76 et 100 seront mappées à un niveau de confiance élevé.
Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance compris entre 66 et 75 seront mappées à la confiance moyenne.
Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance inférieurs ou égaux à 65 seront mappées à un niveau de confiance faible.

Création de types d’informations sensibles personnalisés

Vous pouvez choisir parmi plusieurs options pour créer des types d’informations sensibles personnalisés dans le portail de conformité.

Utiliser l’interface utilisateur : vous pouvez configurer un type d’informations sensibles personnalisé à l’aide de l’interface utilisateur du portail de conformité. Cette méthode vous permet d’utiliser des expressions régulières, des mots clés et des dictionnaires de mots clés. Pour en savoir plus, voir Créer un type d’informations sensibles personnalisé.
Utiliser EDM : vous pouvez configurer des types d’informations sensibles personnalisés à l’aide de la classification EDM (Exact Data Match). Cette méthode vous permet de créer un type d’informations sensibles dynamique à l’aide d’une base de données sécurisée que vous pouvez actualiser régulièrement. Consultez En savoir plus sur les types d’informations sensibles basés sur la correspondance exacte des données.
Utiliser PowerShell : vous pouvez configurer des types d’informations sensibles personnalisés à l’aide de PowerShell. Bien que cette méthode soit plus complexe que celle de l’interface utilisateur, elle offre davantage d’options de configuration. Consultez Créer un type d’informations sensibles personnalisé dans Security & Compliance PowerShell.

Remarque

Des niveaux de confiance améliorés sont disponibles pour une utilisation immédiate dans les services de protection contre la perte de données Microsoft Purview, la protection des informations, la conformité des communications, la gestion du cycle de vie des données et la gestion des enregistrements. Information Protection prend désormais en charge les langues de jeu de caractères codés sur deux octets pour :

Chinois (simplifié)
Chinois (traditionnel)
Korean
Japanese

Cette prise en charge est disponible pour les types d’informations sensibles. Pour plus d’informations, consultez La prise en charge des informations pour les jeux de caractères sur deux octets.

Conseil

Pour détecter les modèles contenant des caractères chinois/japonais et des caractères d’octet unique ou pour détecter les modèles contenant du chinois/le japonais et l’anglais, définissez deux variantes du mot clé ou de regex.

Par exemple, pour détecter un mot clé tel que « 机密的document », utilisez deux variantes du mot clé ; l’un avec un espace entre le texte japonais et anglais et l’autre sans espace entre le texte japonais et l’anglais. Par conséquent, les mots clés à ajouter dans le SIT doivent être « 机密的 document » et « 机密的document ». De la même façon, pour détecter une expression « 東京オリンピック2020 », deux variantes doivent être utilisées : « 東京オリンピック 2020 » et « 東京オリンピック2020 ».

En plus des caractères chinois/japonais/double octet, si la liste de mots clés/expressions contient également des mots non chinois/japonais (pour instance, anglais uniquement), vous devez créer deux dictionnaires/mot clé listes. Un pour les mots clés contenant des caractères chinois/japonais/double octet et un autre pour les mots clés en anglais uniquement.

Par exemple, si vous souhaitez créer un dictionnaire/liste mot clé avec trois expressions « Hautement confidentiel », « 機密性が高い » et « 机密的document », vous devez créer deux listes mot clé.
1. Extrêmement confidentiel
2. Document 機密性が高い, 机密的 et document 机密的

Lors de la création d’une expression régulière à l’aide d’un trait d’union sur deux octets ou d’un point sur deux octets, veillez à placer les deux caractères dans une séquence d’échappement, comme vous le feriez pour échapper un trait d’union ou un point dans une expression régulière. Voici un exemple de regex pour référence :

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Nous vous recommandons d’utiliser une correspondance de chaîne au lieu d’une correspondance de mots dans une liste mot clé.

Tester le type d’informations sensibles

Vous pouvez tester le SIT en chargeant un exemple de fichier. Les résultats des tests indiquent le nombre de correspondances pour chaque niveau de confiance. Vous pouvez tester les SIT intégrés, les SIT personnalisés, les classifieurs pouvant être entraînés et la correspondance exacte des données.

Tester le type d’informations sensibles intégrées et personnalisées

Testez le type d’informations sensibles correspondant exactement aux données.

Fournir un retour d’exactitude de correspondance/non dans les types d’informations sensibles

Vous pouvez afficher le nombre de correspondances d’un SIT dans Types d’informations sensibles et Explorateur de contenu. Vous pouvez également fournir des commentaires sur le fait qu’un élément est réellement une correspondance ou non à l’aide du mécanisme de commentaires Match, Not a Match et utiliser ces commentaires pour paramétrer vos SIT. Pour plus d’informations, consultez Augmenter la précision du classifieur.

Pour plus d’informations

Pour savoir comment utiliser les types d’informations sensibles pour se conformer aux réglementations en matière de confidentialité des données, consultez Déployer la protection des informations pour les réglementations en matière de confidentialité des données avec Microsoft 365 (aka.ms/m365dataprivacy).