Partage via


Créer des données exactes correspondant au type d’informations sensibles/au package de règles

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment les fonctionnalités supplémentaires de Purview peuvent aider votre organisation à gérer les besoins en matière de sécurité et de conformité des données. Commencez maintenant sur le hub d’essais du portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

S’applique à

Vous pouvez créer une correspondance exacte des données (EDM) SIT (SIT) à l’aide de l’outil Utiliser le schéma exact de correspondance des données et le modèle SIT dans le portail de conformité Microsoft Purview, ou vous pouvez créer le package de règles manuellement sous forme de fichier XML. Vous pouvez également combiner les deux méthodes en utilisant une méthode pour créer le schéma et ultérieurement en utilisant l’autre méthode pour le modifier.

Si vous n’êtes pas familiarisé avec les services SITS basés sur EDM ou leur implémentation, vous devez vous familiariser avec :

Conditions préalables

Effectuez les étapes décrites dans ces articles :

  1. Exporter des données sources pour obtenir des types d’informations sensibles basés sur la correspondance exacte des données
  2. Créer le schéma pour les types d’informations sensibles basés sur des correspondances de données exactes
  3. Hacher et charger la table de source d’informations sensibles pour les données exactes correspondant aux types d’informations sensibles
  • Que vous créiez un sit EDM à l’aide de l’outil ou du fichier XML du package de règles via PowerShell, vous devez disposer des autorisations d’administrateur général ou d’administrateur de conformité pour créer, tester et déployer un sit personnalisé via l’interface utilisateur. Voir À propos des rôles d’administrateur dans Office 365.

Importante

Microsoft vous recommande d’utiliser des rôles avec le moins d’autorisations. Cela permet d’améliorer la sécurité de votre organisation. Administrateur général est un rôle à privilèges élevés qui ne doit être utilisé que dans les scénarios où un rôle moins privilégié ne peut pas être utilisé.

  • Identifiez l’un des SIT intégrés à utiliser comme sit des éléments primaires.
    • Si aucun des SIT intégrés ne correspond aux données de la colonne que vous avez sélectionnée, vous devez créer un SIT personnalisé qui le fait.
    • Si vous avez sélectionné l’option Délimiteurs ignorés pour la colonne d’élément principal dans votre schéma, assurez-vous que le sit personnalisé que vous créez correspond aux données avec et sans les délimiteurs sélectionnés.
    • Si vous utilisez un sit intégré, assurez-vous qu’il détecte exactement les chaînes que vous souhaitez sélectionner, et n’inclut pas de caractères environnants ou exclut toute partie valide de la chaîne telle qu’elle est stockée dans votre table d’informations sensibles.

Consultez Définitions d’entité de type d’informations sensibles et Créer des types d’informations sensibles personnalisés.

Utiliser le schéma Exact Data Match et l’outil de modèle SIT

Vous pouvez utiliser cet outil pour créer vos fichiers SIT afin de simplifier le processus.

Un sit EDM est composé d’un ou plusieurs modèles. Chaque modèle décrit une combinaison de champs du schéma qui seront utilisés pour identifier le contenu sensible dans un document ou un e-mail (preuve).

Sélectionnez l’onglet approprié pour le portail que vous utilisez. Pour en savoir plus sur le portail Microsoft Purview, consultez Portail Microsoft Purview. Pour en savoir plus sur le portail de conformité, consultez Portail de conformité Microsoft Purview.

  1. Connectez-vous auxclassifieurs>EDM du portail> Microsoft PurviewInformation Protection>.

    1. Définissez le bouton bascule Nouvelle expérience EDM sur Désactivé
  2. Choisissez Types d’informations sensibles EDM et Créer un type d’informations sensibles EDM pour ouvrir l’outil de configuration Type d’informations sensibles.

  3. Sélectionnez Choisir un schéma EDM existant et choisissez le schéma que vous avez créé dans Créer le schéma pour les types d’informations sensibles basés sur la correspondance exacte des données. Sélectionnez Ajouter.

  4. Choisissez Suivant, puis Créer un modèle.

  5. Sélectionnez le niveau de confiance et l’élément Primaire. Pour en savoir plus sur les niveaux de confiance, consultez En savoir plus sur les types d’informations sensibles.

  6. Choisissez le type d’informations sensibles de l’élément Primary à associer pour définir le texte du document qui sera comparé à toutes les valeurs du champ d’élément primaire. Consultez Définitions d’entités SIT pour en savoir plus sur les types d’informations sensibles disponibles.

    Importante

    Sélectionnez un sit qui correspond étroitement au format du contenu que vous souhaitez rechercher. La sélection d’un sit qui correspond au contenu inutile, tel qu’un qui correspond à toutes les chaînes de texte ou à tous les nombres, peut entraîner une charge excessive dans le système, ce qui peut entraîner la non détection d’informations sensibles.

  7. Sélectionnez vos éléments de prise en charge et faites correspondre les options.

  8. Choisissez OK.

  9. Choisissez Créer un modèle si vous souhaitez créer des modèles supplémentaires pour votre sit EDM.

  10. Sélectionnez Suivant.

  11. Choisissez le niveau de confiance recommandé et la proximité des caractères souhaités. Il s’agit de la valeur par défaut pour l’ensemble du sit EDM. (Pour plus d’informations sur la proximité des caractères, consultez Présentation de la proximité). Sélectionnez Suivant.

  12. Choisissez Suivant, puis entrez un Nom et une Description pour les administrateurs.

    Lorsque vous créez votre fichier de schéma, vos en-têtes de colonne (champs de données) doivent respecter les exigences de nommage suivantes :
    - Doit commencer par une lettre et doit comporter au moins trois caractères alphanumériques.
    - Doit inclure uniquement des caractères alphanumériques.

  13. Passez en revue vos paramètres, puis sélectionnez Envoyer.

Modifier ou supprimer un modèle SIT

Sélectionnez l’onglet approprié pour le portail que vous utilisez. Pour en savoir plus sur le portail Microsoft Purview, consultez Portail Microsoft Purview. Pour en savoir plus sur le portail de conformité, consultez Portail de conformité Microsoft Purview.

  1. Connectez-vous auxclassifieurs>EDM du portail> Microsoft PurviewInformation Protection>.

    1. Définissez le bouton bascule Nouvelle expérience EDM sur Désactivé
  2. Choisissez les types d’informations sensibles EDM.

  3. Sélectionnez le sit EDM que vous souhaitez modifier.

  4. Choisissez Modifier le type d’informations sensibles EDM ou Supprimer le type d’informations sensibles EDM du menu volant.

  5. Consultez Utiliser le schéma Exact Data Match et l’outil de modèle SIT pour connaître les procédures de modification.

Utilisation de types de données spécifiques

Pour des raisons de performances, il est essentiel d’utiliser des modèles qui réduisent le nombre de correspondances inutiles. Par exemple, vous pouvez utiliser un sit basé sur l’expression régulière.

\b\w*\b

Cela correspond à chaque mot ou numéro dans n’importe quel document ou e-mail. Ainsi, le service est surchargé de correspondances et ne détecte pas les correspondances vraies. L’utilisation de modèles plus précis peut éviter cette situation. Voici quelques recommandations pour identifier la configuration appropriée pour certains types de données courants.

Adresses de messagerie : les adresses de messagerie peuvent être faciles à identifier, mais comme elles sont si courantes dans le contenu sensible, elles peuvent entraîner une charge importante dans le système si elles sont utilisées comme champ principal. Utilisez des adders de messagerie uniquement comme preuve secondaire. S’ils doivent être utilisés comme preuve principale, lorsque vous définissez votre sit personnalisé, utilisez la logique pour exclure les éléments où les adresses e-mail sont utilisées en tant que From champs ou To dans les e-mails. Utilisez également la logique pour exclure les adresses e-mail du domaine de votre entreprise afin de réduire le nombre de chaînes inutiles qui doivent être mises en correspondance.

Numéros de téléphone : les numéros de téléphone peuvent être disponibles dans de nombreux formats, y compris ou en excluant les préfixes de pays/région, les codes régionaux et les séparateurs. Pour réduire les faux négatifs tout en conservant la charge au minimum, utilisez-les uniquement comme éléments secondaires, excluez tous les séparateurs probables, comme les parenthèses et les tirets, et incluez uniquement dans votre table de données sensibles la partie qui sera toujours présente dans le numéro de téléphone.

Noms de personnes : n’utilisez pas les noms de personnes comme éléments principaux si vous utilisez un sit basé sur une expression régulière comme élément de classification pour ce type EDM, car ils sont difficiles à distinguer des mots courants.

Si vous devez utiliser un élément principal difficile à identifier avec un modèle spécifique (tel qu’un nom de code de projet), qui peut générer un volume élevé de correspondances à traiter, veillez à inclure des mots clés dans le SIT que vous utilisez comme élément de classification pour votre type EDM. Par exemple, si vous utilisez des noms de code de projet qui sont également des mots ordinaires, vous pouvez utiliser le mot project comme preuve supplémentaire requise à proximité du modèle basé sur les expressions régulières du nom de projet dans le SIT que vous utilisez comme élément de classification pour votre type EDM. Vous pouvez également envisager d’utiliser un sit basé sur un dictionnaire normal comme élément de classification pour votre sit EDM.

Lorsque vous essayez de faire correspondre des chaînes numériques, spécifiez les plages de nombres autorisées, telles que le nombre de chiffres ou les chiffres de départ, si elles sont connues. Si vous avez besoin de faire correspondre une plage de nombres relativement flexible, vous pouvez utiliser des mots clés dans le SIT de base pour réduire le nombre de correspondances. Par exemple, si vous essayez de faire correspondre des numéros de compte composés de 7 à 11 chiffres, ajoutez les mots account, customerau acct. sit en tant que preuve supplémentaire requise. Cela réduit la probabilité de correspondances inutiles qui pourraient entraîner un dépassement des limites de correspondances EDM pouvant être traitées.

Si un champ que vous devez utiliser comme élément principal suit un modèle simple qui peut entraîner un grand nombre de correspondances et que vous ne pouvez pas ajouter la présence de mots clés comme preuve supplémentaire dans le SIT, vous pouvez plutôt exiger un nombre minimal d’occurrences de ce modèle. Par exemple, vous pouvez utiliser un sit personnalisé défini de la façon suivante pour détecter au moins 29 autres nombres à cinq chiffres entourant un nombre potentiel à cinq chiffres à mettre en correspondance dans votre contenu sensible :

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

Dans certains cas, vous devrez peut-être identifier certains comptes ou enregistrer des numéros d’identification qui, pour des raisons historiques, ne suivent pas un modèle standardisé. Par exemple, Medical Record Numbers peut être composé de nombreuses permutations différentes de lettres et de chiffres au sein de la même organisation. Même s’il peut être difficile au début d’identifier un modèle, une inspection plus approfondie vous permet souvent d’affiner un modèle qui décrit toutes les valeurs valides sans entraîner un nombre excessif de correspondances non valides. Par exemple, il peut être détecté que « tous les mrn ont au moins sept caractères, comportent au moins deux chiffres numériques et, s’ils contiennent des lettres, ils commencent par un ». La création d’une expression régulière basée sur ces critères doit vous permettre de réduire les correspondances inutiles tout en capturant toutes les valeurs souhaitées, et une analyse plus poussée peut permettre une précision accrue en définissant des modèles distincts qui décrivent différents formats.

Créer un package de règles manuellement

Cette procédure vous montre comment créer un fichier au format XML appelé package de règles (avec encodage Unicode), puis le charger dans Microsoft Purview à l’aide des applets de commande PowerShell Security & Compliance.

Remarque

Si le sit auquel vous mappez peut détecter des preuves corroboratives à plusieurs mots, les éléments secondaires que vous définissez dans un package de règles créé manuellement peuvent être mappés au sit. Par exemple, le nom John Smith ne correspondrait pas en tant qu’élément secondaire, car nous comparions John et Smith trouvions dans le contenu séparément le terme John Smith chargé dans l’un des champs, si ce champ de preuve corroborant n’était pas mappé à un SIT capable de détecter ce modèle.

Il existe une limite de 10 packages de règles dans un locataire Microsoft 365. Étant donné qu’un package de règles peut contenir un nombre arbitraire de types d’informations sensibles, vous pouvez éviter de créer un package de règles chaque fois que vous souhaitez définir un nouveau sit à l’aide de cette méthode, mais plutôt exporter un package de règles existant et ajouter vos types d’informations sensibles au code XML avant de le charger à nouveau.

  1. Créez un package de règles au format XML (avec codage Unicode) similaire à l’exemple suivant. (vous pouvez copier, modifier et utiliser notre exemple).

    Lorsque vous configurez votre package de règles, veillez à référencer correctement votre fichier de table source d’informations sensibles délimité .csv, .tsv ou canal (|) et edm.xml fichier de schéma. Vous pouvez copier, modifier et utiliser notre exemple. Dans cet exemple xml, les champs suivants doivent être personnalisés pour créer votre type sensible EDM :

    • RulePack id & ExactMatch id : utilisez New-GUID pour générer un GUID.

    • Datastore : ce champ spécifie le magasin de données de recherche EDM à utiliser. Vous fournissez le nom de la source de données du schéma EDM configuré.

    • idMatch : ce champ pointe vers l’élément principal pour EDM.

    • Correspond : spécifie le champ à utiliser dans la recherche exacte. Vous fournissez un nom de champ pouvant faire l’objet d’une recherche dans le schéma EDM pour le magasin de données.

    • Classification : ce champ spécifie la correspondance SIT qui déclenche la recherche EDM. Vous pouvez utiliser le nom ou le GUID d’un sit intégré ou personnalisé existant.

    Remarque

    N’oubliez pas que toute chaîne qui correspond au sit fourni sera hachée et comparée à chaque entrée de la table source d’informations sensibles. Pour éviter les problèmes de performances si vous choisissez un sit personnalisé pour l’élément de classification, n’en utilisez pas un qui correspond à un pourcentage élevé du contenu. Par exemple, un qui correspond à « n’importe quel nombre » ou « n’importe quel mot à cinq lettres ». Vous pouvez le différencier en ajoutant des mots clés de prise en charge ou en incluant la mise en forme dans la définition du sit de classification personnalisée.

    • Correspondance : ce champ pointe vers des preuves supplémentaires trouvées à proximité d’idMatch.

    • Correspond : vous fournissez n’importe quel nom de champ dans le schéma EDM pour le magasin de données.

    • IdRef de ressource : Cette section spécifie le nom et la description du type sensible dans plusieurs paramètres régionaux

      • Vous fournissez un GUID pour l’ID ExactMatch.
      • Nom & description : personnalisez en fonction des besoins.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. Chargez le package de règles en exécutant la commande PowerShell suivante :

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

Remarque

La syntaxe du fichier de package de règles est la même que pour les autres types d’informations sensibles. Pour plus d’informations sur la syntaxe du fichier de package de règles et pour obtenir des options de configuration supplémentaires, et pour obtenir des instructions sur la modification et la suppression de types d’informations sensibles à l’aide de PowerShell, créez un sit personnalisé à l’aide de PowerShell.

Étape suivante