Meer informatie over typen gevoelige informatie

Het identificeren en classificeren van gevoelige items die onder het beheer van uw organisatie vallen, is de eerste stap in de Information Protection-discipline. Microsoft Purview biedt drie manieren om items te identificeren, zodat ze kunnen worden geclassificeerd:

  • handmatig door gebruikers
  • geautomatiseerde patroonherkenning, zoals typen gevoelige informatie
  • machine learning

Gevoelige informatietypen (SIT) zijn classificaties op basis van patronen. Ze detecteren gevoelige informatie zoals sociale zekerheid, creditcard- of bankrekeningnummers om gevoelige items te identificeren. Zie Entiteitsdefinities voor gevoelige informatietypen voor een volledige lijst met alle SID's.

Microsoft biedt een groot aantal vooraf geconfigureerde SID's of u kunt uw eigen sidts maken.

Tip

Als u geen E5-klant bent, kunt u alle premium-functies in Microsoft Purview gratis proberen. Gebruik de proefversie van Purview-oplossingen van 90 dagen om te ontdekken hoe robuuste Purview-mogelijkheden uw organisatie kunnen helpen bij het beheren van de behoeften op het gebied van gegevensbeveiliging en naleving. Begin nu bij de hub met Microsoft Purview-nalevingsportal proefversies. Meer informatie over registratie en proefabonnementen.

Typen gevoelige informatie worden gebruikt in

Categorieën gevoelige informatietypen

Ingebouwde typen gevoelige informatie

Deze SID's worden door Microsoft gemaakt en worden standaard weergegeven in de nalevingsconsole. Deze SID's kunnen niet worden bewerkt, maar ze kunnen worden gebruikt als sjablonen en worden gekopieerd om aangepaste typen gevoelige informatie te maken. Zie entiteitsdefinities van het type Gevoelige informatie voor een volledige lijst met alle SID's.

Typen gevoelige informatie over benoemde entiteiten

Benoemde entiteits-SID's worden ook standaard weergegeven in de nalevingsconsole. Ze detecteren namen van personen, fysieke adressen en medische voorwaarden. Ze kunnen niet worden bewerkt of gekopieerd. Zie Meer informatie over benoemde entiteiten voor meer informatie. Benoemde entiteits-SID's zijn er in twee typen:

niet-gebundeld

Deze benoemde entiteits-SID's hebben een smallere focus, zoals één land of één klasse termen. Gebruik deze wanneer u een DLP-beleid met een smaller detectiebereik nodig hebt. Zie voorbeelden van benoemde entiteits-SID's.

Bundled

Gebundelde benoemde entiteits-SID's detecteren alle mogelijke overeenkomsten in een klasse, zoals alle fysieke adressen. Gebruik deze als algemene criteria in uw DLP-beleid voor het detecteren van gevoelige items. Zie voorbeelden van benoemde entiteits-SID's.

Aangepaste typen gevoelige informatie

Als de vooraf geconfigureerde typen gevoelige informatie niet aan uw behoeften voldoen, kunt u uw eigen aangepaste typen gevoelige informatie maken die u volledig definieert of u kunt een van de ingebouwde typen kopiëren en wijzigen. Zie Een aangepast type gevoelige informatie maken in het Compliancecentrum voor meer informatie.

Exacte gegevens komen overeen met gevoelige informatietypen

Alle op EDM gebaseerde SID's worden helemaal opnieuw gemaakt. U gebruikt deze om items te detecteren met exacte waarden die u definieert in een database met gevoelige informatie. Meer informatie over gevoelige informatietypen op basis van exacte gegevensovereenkomst voor meer informatie.

Fundamentele onderdelen van een type gevoelige informatie

Elke entiteit van het type gevoelige informatie wordt gedefinieerd door de volgende velden:

  • naam: hoe naar het type gevoelige informatie wordt verwezen
  • beschrijving: beschrijft wat het type gevoelige informatie zoekt
  • patroon: Een patroon definieert wat een type gevoelige informatie detecteert. Het bestaat uit de volgende onderdelen.
    • Primair element: het belangrijkste element waarnaar het type gevoelige informatie op zoek is. Het kan een reguliere expressie zijn met of zonder controlesomvalidatie, een lijst met trefwoorden, een trefwoordenlijst of een functie.
    • Ondersteunend element: elementen die fungeren als ondersteunend bewijs dat helpt bij het vergroten van het vertrouwen van de overeenkomst. Bijvoorbeeld het trefwoord 'SSN' in de nabijheid van een SSN-nummer. Het kan een reguliere expressie zijn met of zonder controlesomvalidatie, lijst met trefwoorden, woordenlijst met trefwoorden.
    • Betrouwbaarheidsniveau: betrouwbaarheidsniveaus (hoog, gemiddeld, laag) geven aan hoeveel ondersteunend bewijs is gedetecteerd samen met het primaire element. Hoe meer ondersteunend bewijs een item bevat, hoe hoger het vertrouwen dat een overeenkomend item de gevoelige informatie bevat die u zoekt.
    • Nabijheid: het aantal tekens tussen het primaire en ondersteunende element.

Diagram van bevestigend bewijs en nabijheidsvenster.

Meer informatie over betrouwbaarheidsniveaus vindt u in deze korte video.

Voorbeeld van type gevoelige informatie

Nationaal identiteitsnummer van Argentinië (DNI)

Formaat

Acht cijfers gescheiden door punten

Patroon

Acht cijfers:

  • Twee cijfers
  • een punt
  • drie cijfers
  • een punt
  • drie cijfers

Controlesom

Nee

Definitie

Een DLP-beleid heeft gemiddelde zekerheid dat het dit type gevoelige informatie heeft gedetecteerd binnen een nabijheid van 300 tekens:

  • De reguliere expressie Regex_argentina_national_id inhoud vindt die overeenkomt met het patroon.
  • Er is een trefwoord uit Keyword_argentina_national_id gevonden.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Trefwoorden

Keyword_argentina_national_id

  • Nationaal identiteitsnummer Argentinië
  • Identiteit
  • Identificatie nationale identiteitskaart
  • Dni
  • NIC National Registry of Persons
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Meer over betrouwbaarheidsniveaus

In een entiteitsdefinitie van het type gevoelige informatie geeft het betrouwbaarheidsniveau aan hoeveel ondersteunend bewijs wordt gedetecteerd naast het primaire element. Hoe meer ondersteunend bewijs een item bevat, hoe hoger het vertrouwen dat een overeenkomend item de gevoelige informatie bevat die u zoekt. Overeenkomsten met een hoog betrouwbaarheidsniveau bevatten bijvoorbeeld meer ondersteunend bewijs in de nabijheid van het primaire element, terwijl overeenkomsten met een laag betrouwbaarheidsniveau weinig tot geen ondersteunend bewijs in de nabijheid zouden bevatten.

Een hoog betrouwbaarheidsniveau retourneert de minste fout-positieven, maar kan leiden tot meer fout-negatieven. Lage of gemiddelde betrouwbaarheidsniveaus retourneren meer fout-positieven, maar weinig tot nul fout-negatieven.

  • lage betrouwbaarheid: overeenkomende items bevatten de minste fout-negatieven, maar de meest fout-positieven. Met lage betrouwbaarheid worden alle overeenkomsten met lage, gemiddelde en hoge betrouwbaarheid geretourneerd. Het lage betrouwbaarheidsniveau heeft een waarde van 65.
  • gemiddelde betrouwbaarheid: overeenkomende items bevatten een gemiddelde hoeveelheid fout-positieven en fout-negatieven. Medium betrouwbaarheid retourneert alle gemiddelde en hoge betrouwbaarheidsovereenkomsten. Het gemiddelde betrouwbaarheidsniveau heeft een waarde van 75.
  • hoge betrouwbaarheid: overeenkomende items bevatten de minste fout-positieven, maar de meest fout-negatieven. Hoge betrouwbaarheid retourneert alleen overeenkomsten met hoge betrouwbaarheid en heeft een waarde van 85.

U moet patronen met een hoog betrouwbaarheidsniveau gebruiken met lage aantallen, bijvoorbeeld vijf tot tien, en patronen met een laag betrouwbaarheidsniveau met hogere aantallen, bijvoorbeeld 20 of meer.

Opmerking

Als u bestaande beleidsregels of aangepaste typen gevoelige informatie (SID's) hebt gedefinieerd met behulp van betrouwbaarheidsniveaus op basis van getallen (ook bekend als nauwkeurigheid), worden deze automatisch toegewezen aan de drie discrete betrouwbaarheidsniveaus; lage betrouwbaarheid, gemiddelde betrouwbaarheid en hoge betrouwbaarheid in de gebruikersinterface van Security @ Compliance Center.

  • Alle beleidsregels met minimale nauwkeurigheid of aangepaste SIT-patronen met betrouwbaarheidsniveaus tussen 76 en 100 worden toegewezen aan hoge betrouwbaarheid.
  • Alle beleidsregels met minimale nauwkeurigheid of aangepaste SIT-patronen met betrouwbaarheidsniveaus tussen 66 en 75 worden toegewezen aan gemiddelde betrouwbaarheid.
  • Alle beleidsregels met minimale nauwkeurigheid of aangepaste SIT-patronen met betrouwbaarheidsniveaus kleiner dan of gelijk aan 65 worden toegewezen aan een lage betrouwbaarheid.

Aangepaste typen gevoelige informatie maken

U kunt kiezen uit verschillende opties om aangepaste typen gevoelige informatie te maken in het Compliancecentrum.

Opmerking

Verbeterde betrouwbaarheidsniveaus zijn beschikbaar voor direct gebruik in Microsoft Purview-services voor preventie van gegevensverlies, informatiebeveiliging, communicatiecompatibiliteit, beheer van de levenscyclus van gegevens en recordbeheer. Information Protection ondersteunt nu talen voor tekensets met dubbele byte voor:

  • Vereenvoudigd Chinees
  • Traditioneel Chinees
  • Korean
  • Japanese

Deze ondersteuning is beschikbaar voor typen gevoelige informatie. Zie informatiebeveiligingsondersteuning voor releaseopmerkingen voor dubbele bytetekensets voor meer informatie.

Tip

Om patronen te detecteren die Chinese/Japanse karakters en enkelbyte karakters bevatten of om patronen te detecteren die Chinees/Japans en Engels bevatten, definieert u twee varianten van het trefwoord of de regex.

  • Om bijvoorbeeld een trefwoord als "机密的document" te detecteren, gebruikt u twee varianten van het trefwoord; een met een spatie tussen de Japanse en Engelse tekst en een andere zonder een spatie tussen de Japanse en Engelse tekst. De trefwoorden die in de SIT moeten worden toegevoegd, moeten dus "机密的 document" en "机密的document" zijn. Evenzo moeten twee varianten worden gebruikt om een zin "東京オリンピック2020" te detecteren; "東京オリンピック 2020" en "東京オリンピック2020".

Als de lijst met trefwoorden/woordgroepen naast Chinese/Japanse/dubbele bytetekens ook niet-Chinese/Japanse woorden bevat (zoals alleen Engels), moet u twee woordenlijsten/trefwoordenlijsten maken. Een voor trefwoorden voor Chinese/Japanse/dubbele byte-tekens en een andere voor alleen Engels.

  • Als u bijvoorbeeld een woordenlijst/lijst met trefwoorden wilt maken met drie zinnen 'Zeer vertrouwelijk', '機密性が高い' en '机密的document', moet u twee trefwoordenlijsten maken.
    1. Zeer vertrouwelijk
    2. 機密性が高い, 机密-document en 机密 document

Zorg er bij het maken van een regex met een dubbelbyte-afbreekstreepje of een dubbele-byte-periode voor dat u beide tekens escaped, zoals een koppelteken of een punt in een regex. Hier is een voorbeeldregex ter referentie:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

We raden u aan tekenreeksovereenkomst te gebruiken in plaats van woordovereenkomst in een lijst met trefwoorden.

Feedback over de nauwkeurigheid van overeenkomst/geen overeenkomst opgeven in typen gevoelige informatie

U kunt het aantal overeenkomsten weergeven dat een SIT heeft in typen gevoelige informatie en Inhoudsverkenner. U kunt ook feedback geven over of een item daadwerkelijk een overeenkomst is of niet met behulp van het feedbackmechanisme Match, Not a Match en die feedback gebruiken om uw SID's af te stemmen. Zie Classificatienauwkeurigheid verhogen (preview) voor meer informatie.

Voor meer informatie

Zie Informatiebescherming implementeren voor regelgeving voor gegevensprivacy met Microsoft 365 (aka.ms/m365dataprivacy) voor meer informatie over het gebruik van typen gevoelige informatie om te voldoen aan de regelgeving voor gegevensprivacy.