Partager via


Créer un dictionnaire de mots clés

Microsoft Purview peut identifier, surveiller et protéger vos éléments sensibles. L’identification des éléments sensibles nécessite parfois la recherche de mots clés, en particulier lors de l’identification d’un contenu générique (comme une communication liée à la santé) ou d’un langage inapproprié ou explicite. Bien que vous puissiez créer des listes de mots clés lorsque vous créez des types d’informations sensibles personnalisés, la taille des listes de mots clés est limitée et, si vous les créez dans PowerShell, vous devez modifier le code XML pour les créer ou les modifier.

En revanche, les dictionnaires de mots clés simplifient la gestion des mots clés et à une échelle beaucoup plus grande, en prenant en charge jusqu’à 1 Mo de termes (post-compression) dans le dictionnaire. En outre, les dictionnaires de mots clés peuvent prendre en charge n’importe quelle langue. La limite du client est également de 1 Mo après compression. Une limite de post-compression de 1 Mo signifie que tous les dictionnaires combinés dans un locataire peuvent avoir près d’un million de caractères.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment les fonctionnalités supplémentaires de Purview peuvent aider votre organisation à gérer les besoins en matière de sécurité et de conformité des données. Commencez maintenant sur le hub d’essais du portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Limites du dictionnaire de mots clés

Vous pouvez créer jusqu’à 50 types d’informations sensibles (SIT) par locataire qui ont utilisé sur les dictionnaires de mots clés. Pour connaître le nombre de dictionnaires de mots clés dont vous disposez dans votre locataire, suivez les procédures décrites dans Se connecter à La sécurité & Conformité PowerShell pour vous connecter à votre locataire, puis exécutez ce script PowerShell :

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Étapes de base de la création d’un dictionnaire de mots clés

Le plus souvent, vous compilez vos mots clés pour votre dictionnaire dans un fichier, tel qu’une liste .csv ou .txt. Vous chargez le fichier de dictionnaire dans un sit lors de la création ou de la modification, ou vous l’importez via une applet de commande PowerShell. Alternatley, vous pouvez commencer à partir d’un dictionnaire de mots clés existant ou à partir d’un dictionnaire de mots clés existant. Enfin, vous pouvez entrer des mots clés manuellement dans la boîte de dialogue Ajouter un dictionnaire de mots clés . Lorsque vous créez un dictionnaire de mots clés, vous suivez les mêmes étapes principales :

Créer un dictionnaire de mots clés à l’aide du portail Microsoft Purview ou du portail de conformité Microsoft

Procédez comme suit pour créer ou importer des mots clés pour un dictionnaire personnalisé :

Sélectionnez l’onglet approprié pour le portail que vous utilisez. Pour en savoir plus sur le portail Microsoft Purview, consultez Portail Microsoft Purview. Pour en savoir plus sur le portail de conformité, consultez Portail de conformité Microsoft Purview.

  1. Connectez-vous au portail Microsoft PurviewInformation Protection>Classifieurs>Types d’informations sensibles.

  2. Sélectionnez + Créer un type d’informations sensibles , puis entrez un Nom et une Description pour votre type d’informations sensibles. Cliquez sur Suivant.

  3. Dans la page Définir des modèles pour ce type d’informations sensibles , choisissez + Créer un modèle.

  4. Dans la fenêtre Nouveau modèle , sélectionnez un niveau de confiance.

  5. Choisissez Ajouter un élément Primary et sélectionnez Dictionnaire de mots clés.

  6. Dans le menu volant Ajouter un dictionnaire de mots clés , vous pouvez :

    1. Chargez un fichier de dictionnaire au format TXT ou CSV .
    2. Choisissez parmi les dictionnaires existants.
    3. ou créez un dictionnaire en entrant des mots clés manuellement et en lui donnant un nom.
  7. Toujours dans la fenêtre Nouveau modèle , pour Proximité des caractères, spécifiez la distance (en nombre de caractères) à laquelle tous les éléments de prise en charge doivent être détectés. Plus les éléments principaux et secondaires sont proches les uns des autres, plus le contenu détecté est susceptible d’être ce que vous recherchez.

  8. Ajoutez les éléments de prise en charge que vous souhaitez utiliser pour améliorer la précision de la détection de ce que vous recherchez.

  9. Ajoutez des vérifications supplémentaires , puis choisissez Créer.

  10. Choisissez Suivant pour continuer à créer votre type d’informations sensibles. Lorsque vous avez terminé, choisissez Terminé.

Création d’un dictionnaire de mots clés à partir d’un fichier avec PowerShell

Souvent, lorsque vous avez besoin de créer un dictionnaire volumineux, vous pouvez utiliser des mots clés à partir d’un fichier ou d’une liste exportée à partir d’une autre source. Dans l’exemple qui suit, vous allez créer un dictionnaire de mots clés contenant une liste de maladies à dépeguer dans un e-mail externe. Pour commencer, vous devez vous connecter à Sécurité & Conformité PowerShell.

  1. Copiez vos mots clés dans un fichier texte et assurez-vous que chaque mot clé se trouve sur une ligne distincte.

  2. Enregistrez le fichier texte avec l’encodage Unicode. Dans le Bloc-notes, accédez à >Enregistrer en tant qu’encodage>>Unicode.

  3. Lisez le fichier dans une variable en exécutant la cmdlet suivante :

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Créez le dictionnaire en exécutant la cmdlet suivante :

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Utilisation des dictionnaires de mots clés dans les types d’informations sensibles personnalisés et les stratégies DLP

Les dictionnaires de mots clés peuvent être utilisés dans le cadre des exigences de correspondance pour un type d’information sensible personnalisé ou comme type d’information sensible eux-mêmes. Dans les deux cas, la création d’un type d’informations sensibles personnalisé est requise. Suivez les instructions de l’article lié pour créer un type d’informations sensibles. Une fois que vous disposez du code XML, vous aurez besoin de l’identificateur GUID du code XML pour utiliser le dictionnaire.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Pour obtenir l’identité de votre dictionnaire, exécutez la commande suivante et copiez la valeur de la propriété Identité :

Get-DlpKeywordDictionary -Name "Diseases"

Le résultat de la commande ressemble à ceci :

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Collez la valeur d’identité dans le code XML de votre type d’informations sensibles personnalisé en tant que idRef. Ensuite, chargez le fichier XML. Votre dictionnaire apparaît désormais dans votre liste de types d’informations sensibles et vous pouvez l’utiliser directement dans votre stratégie, en spécifiant le nombre de mots clés requis pour correspondre.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Remarque

Microsoft 365 Information Protection prend en charge les langues de jeux de caractères à double octets pour :

  • Chinois (simplifié)
  • Chinois (traditionnel)
  • Korean
  • Japanese

Cette prise en charge est disponible pour les types d’informations sensibles. Si vous souhaitez en savoir plus, consultez l’article Prise en charge de la protection des informations pour les jeux de caractères à double octets (préversion).

Conseil

Pour détecter les modèles contenant des caractères chinois/japonais et des caractères d’octet unique ou pour détecter les modèles contenant du chinois/le japonais et l’anglais, définissez deux variantes du mot clé ou de regex.

  • Par exemple, pour détecter un mot clé tel que « 机密的document », utilisez deux variantes du mot clé ; l’un avec un espace entre le texte japonais et anglais et l’autre sans espace entre le texte japonais et l’anglais. Par conséquent, les mots clés à ajouter dans le SIT doivent être « 机密的 document » et « 机密的document ». De la même façon, pour détecter une expression « 東京オリンピック2020 », deux variantes doivent être utilisées : « 東京オリンピック 2020 » et « 東京オリンピック2020 ».

En plus des caractères chinois/japonais/double octet, si la liste de mots clés/expressions contient également des mots non chinois/japonais (par exemple, des mots anglais autonomes), vous devez créer deux dictionnaires/listes de mots clés. Un pour les mots clés contenant des caractères chinois/japonais/double octet et un autre pour les mots anglais.

  • Par exemple, si vous souhaitez créer un dictionnaire/liste de mots clés avec trois phrases « Hautement confidentiel », « 機密性が高い » et « document 机密的 », vous devez créer deux listes de mots clés.
    1. Extrêmement confidentiel
    2. Document 機密性が高い, 机密的 et document 机密的

Lorsque vous créez une regex en utilisant un trait d'union à double octet ou un point à double octet, assurez-vous d'échapper les deux caractères comme on le ferait pour un trait d'union ou un point dans une regex. Voici un exemple de regex pour référence :

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Nous vous recommandons d’utiliser une correspondance de chaîne au lieu d’une correspondance de mot dans une liste de mots clés.