Créer un dictionnaire de mots clés

La Protection contre la perte de données Microsoft Purview peut identifier, surveiller et protéger vos éléments sensibles. L’identification des éléments sensibles nécessite parfois la recherche de mots clés, en particulier lors de l’identification d’un contenu générique (comme une communication liée à la santé) ou d’un langage inapproprié ou explicite. Bien que vous puissiez créer des listes de mots clés dans des types d’informations sensibles, ces listes sont de taille limitée et nécessitent la modification du XML pour les créer ou les modifier. En revanche, mot clé dictionnaires simplifient la gestion des mots clés et à une échelle beaucoup plus grande, prenant en charge jusqu’à 1 Mo de termes (post-compression) dans le dictionnaire. En outre, les dictionnaires mot clé peuvent prendre en charge n’importe quelle langue. La limite du client est également de 1 Mo après compression. Une limite de post-compression de 1 Mo signifie que tous les dictionnaires combinés dans un locataire peuvent avoir près d’un million de caractères.

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez dès maintenant au hub d’essais portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Limites du dictionnaire de mots clés

Vous pouvez créer jusqu’à 50 types d’informations sensibles par locataire basés sur mot clé dictionnaires. Pour connaître le nombre de dictionnaires mot clé que vous avez dans votre locataire, suivez les procédures décrites dans Se connecter à PowerShell Security & Compliance pour vous connecter à votre locataire, puis exécutez ce script PowerShell :

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Étapes de base de la création d’un dictionnaire de mots clés

Les mots clés de votre dictionnaire peuvent provenir de différentes sources, le plus souvent d’un fichier (tel qu’une liste .csv ou .txt) importé dans le service ou via une applet de commande PowerShell, d’une liste que vous entrez directement dans l’applet de commande PowerShell ou d’un dictionnaire existant. Lorsque vous créez un dictionnaire mot clé, vous suivez les mêmes étapes principales :

  1. Utilisez le *portail de conformité Microsoft Purview ou connectez-vous à portail de conformité Microsoft Purview PowerShell.

  2. Définissez ou chargez vos mots clés à partir de la source souhaitée. L’Assistant et le cmdlet acceptent une liste de mots clés séparés par des virgules pour la création d’un dictionnaire de mots clés personnalisé. Cette étape varie légèrement en fonction de l’origine de vos mots clés. Une fois chargés, les mots clés sont encodés et convertis en un tableau d’octets avant d’être importés.

  3. Créez le dictionnaire. Choisissez un nom et une description, puis créez votre dictionnaire.

Créer un dictionnaire mot clé à l’aide du portail de conformité Microsoft Purview

Procédez comme suit pour créer et importer des mots clés pour un dictionnaire personnalisé :

  1. Connectez-vous au Portail de conformité Microsoft Purview.

  2. Accédez à Classifications > de données Classifieurs > Types d’informations sensibles.

  3. Sélectionnez Créer , puis entrez un Nom et une Description pour votre type d’informations sensibles. Cliquez sur Suivant.

  4. Dans la page Définir des modèles pour ce type d’informations sensibles , choisissez Créer un modèle.

  5. Dans la fenêtre Nouveau modèle , sélectionnez un niveau de confiance.

  6. Choisissez Ajouter un élément Primary et sélectionnez Liste des options dictionnaire de mots clés .

  7. Toujours dans la fenêtre Nouveau modèle , pour Proximité des caractères, spécifiez la distance (en nombre de caractères) à laquelle tous les éléments de prise en charge doivent être détectés. Plus les éléments principaux et secondaires sont proches les uns des autres, plus le contenu détecté est susceptible d’être ce que vous recherchez.

  8. Ajoutez les éléments de prise en charge que vous souhaitez utiliser pour améliorer la précision de la détection de ce que vous recherchez.

  9. Ajoutez des vérifications supplémentaires , puis choisissez Créer.

  10. Choisissez Suivant pour continuer à créer votre type d’informations sensibles. Lorsque vous avez terminé, choisissez Terminé.

Création d’un dictionnaire de mots clés à partir d’un fichier avec PowerShell

Souvent, lorsque vous avez besoin de créer un dictionnaire volumineux, vous pouvez utiliser des mots clés à partir d’un fichier ou d’une liste exportée à partir d’une autre source. Dans l’exemple qui suit, vous allez créer un dictionnaire de mot clé contenant une liste de maladies à déper dans un e-mail externe. Pour commencer, vous devez vous connecter à Sécurité & Conformité PowerShell.

  1. Copiez vos mots clés dans un fichier texte et vérifiez que chaque mot clé se trouve sur une ligne distincte.

  2. Enregistrez le fichier texte avec l’encodage Unicode. Dans le Bloc-notes, accédez à >Enregistrer en tant qu’encodage>>Unicode.

  3. Lisez le fichier dans une variable en exécutant la cmdlet suivante :

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Créez le dictionnaire en exécutant la cmdlet suivante :

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Utilisation des dictionnaires de mots clés dans les types d’informations sensibles personnalisés et les stratégies DLP

Les dictionnaires de mots clés peuvent être utilisés dans le cadre des exigences de correspondance pour un type d’information sensible personnalisé ou comme type d’information sensible eux-mêmes. Dans les deux cas, la création d’un type d’informations sensibles personnalisé est requise. Suivez les instructions de l’article lié pour créer un type d’informations sensibles. Une fois que vous disposez du code XML, vous aurez besoin de l’identificateur GUID du code XML pour utiliser le dictionnaire.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Pour obtenir l’identité de votre dictionnaire, exécutez la commande suivante et copiez la valeur de la propriété Identité :

Get-DlpKeywordDictionary -Name "Diseases"

Le résultat de la commande ressemble à ceci :

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Collez la valeur d’identité dans le code XML de votre type d’informations sensibles personnalisé en tant que idRef. Ensuite, chargez le fichier XML. Votre dictionnaire apparaît désormais dans votre liste de types d’informations sensibles et vous pouvez l’utiliser directement dans votre stratégie, en spécifiant le nombre de mots clés requis pour correspondre.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Remarque

Microsoft 365 Information Protection prend en charge les langues de jeux de caractères à double octets pour :

  • Chinois (simplifié)
  • Chinois (traditionnel)
  • Korean
  • Japanese

Cette prise en charge est disponible pour les types d’informations sensibles. Si vous souhaitez en savoir plus, consultez l’article Prise en charge de la protection des informations pour les jeux de caractères à double octets (préversion).

Conseil

Pour détecter les modèles contenant des caractères chinois/japonais et des caractères d’octet unique ou pour détecter les modèles contenant du chinois/le japonais et l’anglais, définissez deux variantes du mot clé ou de regex.

  • Par exemple, pour détecter un mot clé tel que « 机密的document », utilisez deux variantes du mot clé ; l’un avec un espace entre le texte japonais et anglais et l’autre sans espace entre le texte japonais et l’anglais. Par conséquent, les mots clés à ajouter dans le SIT doivent être « 机密的 document » et « 机密的document ». De la même façon, pour détecter une expression « 東京オリンピック2020 », deux variantes doivent être utilisées : « 東京オリンピック 2020 » et « 東京オリンピック2020 ».

En plus des caractères chinois/japonais/double octet, si la liste des mots clés/expressions contient également des mots non chinois/japonais (pour instance, des mots anglais autonomes), vous devez créer deux dictionnaires/mot clé listes. Un pour les mots clés contenant des caractères chinois/japonais/double octet et un autre pour les mots anglais.

  • Par exemple, si vous souhaitez créer un dictionnaire/liste de mots clés avec trois phrases « Hautement confidentiel », « 機密性が高い » et « document 机密的 », vous devez créer deux listes de mots clés.
    1. Extrêmement confidentiel
    2. Document 機密性が高い, 机密的 et document 机密的

Lorsque vous créez une regex en utilisant un trait d'union à double octet ou un point à double octet, assurez-vous d'échapper les deux caractères comme on le ferait pour un trait d'union ou un point dans une regex. Voici un exemple de regex pour référence :

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Nous vous recommandons d’utiliser une correspondance de chaîne au lieu d’une correspondance de mot dans une liste de mots clés.