Schlüsselwörterbuch erstellen

Microsoft Purview kann Ihre vertraulichen Elemente identifizieren, überwachen und schützen. Das Identifizieren vertraulicher Objekte erfordert manchmal die Suche nach Schlüsselwörtern, insbesondere beim Erkennen von allgemeinen Inhalten (etwa bei Kommunikation im Gesundheitswesen) oder unangemessener oder unflätiger Sprache. Sie können zwar Schlüsselwort (keyword) Listen erstellen, wenn Sie benutzerdefinierte Typen vertraulicher Informationen erstellen, aber Schlüsselwort (keyword) Listen sind in der Größe begrenzt, und wenn Sie sie in PowerShell erstellen, müssen Sie xml ändern, um sie zu erstellen oder zu bearbeiten.

Im Gegensatz dazu bieten Schlüsselwort (keyword) Wörterbücher eine einfachere Verwaltung von Schlüsselwörtern und in einem viel größeren Umfang und unterstützen bis zu 1 MB an Begriffen (Nachkomprimierung) im Wörterbuch. Darüber hinaus können Schlüsselwort (keyword) Wörterbücher jede Sprache unterstützen. Das Mandantenlimit liegt nach der Komprimierung ebenfalls bei 1 MB. Ein Grenzwert nach der Komprimierung von 1 MB bedeutet, dass alle Wörterbücher, die in einem Mandanten kombiniert werden, fast eine Million Zeichen enthalten können.

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Starten Sie jetzt im Testhub für Microsoft Purview-Complianceportal. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Schlüsselwörterbücherlimits

Sie können bis zu 50 Typen vertraulicher Informationen (SITs) pro Mandant erstellen, die in Schlüsselwort (keyword) Wörterbüchern verwendet werden. Um herauszufinden, wie viele Schlüsselwort (keyword) Wörterbücher in Ihrem Mandanten vorhanden sind, führen Sie die Schritte unter Herstellen einer Verbindung mit security & Compliance PowerShell aus, um eine Verbindung mit Ihrem Mandanten herzustellen und dann dieses PowerShell-Skript auszuführen:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Grundlegende Schritte zum Erstellen eines Schlüsselwörterbuchs

Am häufigsten kompilieren Sie Ihre Schlüsselwörter für Ihr Wörterbuch in einer Datei, z. B. einer .csv oder .txt Liste. Sie laden die Wörterbuchdatei während der Erstellung oder Bearbeitung in eine SIT hoch oder importieren sie über ein PowerShell-Cmdlet. Alternatley können Sie mit einem vorhandenen oder einem vorhandenen Schlüsselwortwörterbuch beginnen. Schließlich können Sie Schlüsselwörter manuell im Dialogfeld Schlüsselwort (keyword) Wörterbuch hinzufügen eingeben. Wenn Sie ein Schlüsselwort (keyword) Wörterbuch erstellen, führen Sie die gleichen grundlegenden Schritte aus:

Erstellen eines Schlüsselwort (keyword) Wörterbuchs über das Microsoft Purview-Portal oder das Microsoft Compliance-Portal

Führen Sie die folgenden Schritte aus, um Schlüsselwörter für ein Benutzerwörterbuch zu erstellen oder zu importieren:

Wählen Sie die entsprechende Registerkarte für das von Ihnen verwendete Portal aus. Weitere Informationen zum Microsoft Purview-Portal finden Sie im Microsoft Purview-Portal. Weitere Informationen zum Complianceportal finden Sie unter Microsoft Purview-Complianceportal.

  1. Melden Sie sich beim Microsoft Purview-Portalan Information Protection>KlassifiziererTypen>vertraulicher Informationen.

  2. Wählen Sie + Vertraulichen Informationstyp erstellen aus, und geben Sie dann einen Namen und eine Beschreibung für den Typ vertraulicher Informationen ein. Wählen Sie Weiter aus.

  3. Wählen Sie auf der Seite Muster für diesen typ vertraulichen Informationen definierendie Option + Muster erstellen aus.

  4. Wählen Sie im Fenster Neues Muster eine Konfidenzstufe aus.

  5. Wählen Sie Primäres Element hinzufügen und dann Schlüsselwortwörterbuch aus.

  6. Im Flyout Schlüsselwort (keyword) Wörterbuch hinzufügen haben Sie folgende Möglichkeiten:

    1. Laden Sie eine Wörterbuchdatei im TXT- oder CSV-Format hoch.
    2. Wählen Sie aus vorhandenen Wörterbüchern aus.
    3. oder erstellen Sie ein neues Wörterbuch, indem Sie Schlüsselwörter manuell eingeben und ihm einen Namen geben.
  7. Geben Sie im Fenster Neues Muster für Zeichennähe an, wie weit (in der Anzahl der Zeichen) alle unterstützenden Elemente sein müssen, um erkannt zu werden. Je näher die primären und unterstützenden Elemente beieinander liegen, desto wahrscheinlicher ist der erkannte Inhalt, nach dem Sie suchen.

  8. Fügen Sie die unterstützenden Elemente hinzu, die Sie verwenden möchten, um die Genauigkeit der Erkennung des gesuchten Elements zu erhöhen.

  9. Fügen Sie alle zusätzlichen Überprüfungen hinzu, und wählen Sie dann Erstellen aus.

  10. Wählen Sie Weiter aus, um mit der Erstellung ihres vertraulichen Informationstyps fortzufahren. Wenn Sie fertig sind, wählen Sie Fertig aus.

Erstellen eines Schlüsselwörterbuchs aus einer Datei mit PowerShell

Wenn Sie ein großes Wörterbuch erstellen müssen, können Sie häufig Schlüsselwörter aus einer Datei oder einer Liste verwenden, die aus einer anderen Quelle exportiert wurde. Im folgenden Beispiel erstellen Sie ein Schlüsselwort (keyword) Wörterbuch mit einer Liste von Krankheiten, die in externen E-Mails angezeigt werden sollen. Zunächst müssen Sie eine Verbindung mit Security & Compliance PowerShell herstellen.

  1. Kopieren Sie Ihre Schlüsselwörter in eine Textdatei, und stellen Sie sicher, dass sich jede Schlüsselwort (keyword) in einer separaten Zeile befindet.

  2. Speichern Sie die Textdatei mit Unicode-Codierung. Navigieren Sie im Editor zu >Speichern unter>Codierung>Unicode.

  3. Lesen Sie die Datei in eine Variable, indem Sie das folgende Cmdlet ausführen:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Erstellen Sie das Wörterbuch, indem Sie das folgende Cmdlet ausführen:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Verwenden von Schlüsselwörterbüchern in benutzerdefinierten vertraulichen Informationstypen und DLP-Richtlinien

Schlüsselwörterbücher können als Bestandteil der Übereinstimmungsanforderungen für einen benutzerdefinierten Typ vertraulicher Informationen oder selbst als Typ vertraulicher Informationen verwendet werden. Für beide müssen Sie einen benutzerdefinierten Typ vertraulicher Informationen erstellen. Befolgen Sie die Anweisungen im verknüpften Artikel um einen Typ vertraulicher Informationen zu erstellen. Sobald Sie über den XML-Code verfügen, benötigen Sie den GUID-Bezeichner aus dem XML, um das Wörterbuch verwenden zu können.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Um die Identität des Wörterbuchs zu erhalten, führen Sie den folgenden Befehl aus, und kopieren Sie den Identity-Eigenschaftswert:

Get-DlpKeywordDictionary -Name "Diseases"

Die Ausgabe des Befehls sieht wie folgt aus:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Fügen Sie den Identitätswert in den XML-Code für Ihren benutzerdefinierten vertraulichen Informationstyp als idRef ein. Laden Sie als Nächstes die XML-Datei hoch. Ihr Wörterbuch wird jetzt in der Liste vertraulicher Informationstypen angezeigt, und Sie können es direkt in Ihrer Richtlinie verwenden, indem Sie angeben, wie viele Schlüsselwörter übereinstimmen müssen.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Hinweis

Microsoft 365 Information Protection unterstützt Sprachen mit Doppelbyte-Zeichensatz für:

  • Chinesisch (vereinfacht)
  • Chinesisch (traditionell)
  • Koreanisch
  • Japanisch

Diese Unterstützung ist für vertrauliche Informationstypen verfügbar. Mehr dazu finden Sie in den Versionshinweisen (Vorschau) zur Unterstützung des Informationsschutzes für Doppelbyte-Zeichensätze.

Tipp

Um Muster zu erkennen, die chinesische/japanische Zeichen und einzelne Bytezeichen enthalten, oder um Muster zu erkennen, die Chinesisch/Japanisch und Englisch enthalten, definieren Sie zwei Varianten des Schlüsselworts oder regulären Ausdrucks.

  • Verwenden Sie z. B. zwei Varianten des Schlüsselworts, um ein Schlüsselwort wie „机密的document“ zu erkennen; eine mit einem Leerzeichen zwischen dem japanischen und dem englischen Text und eine andere ohne Leerzeichen zwischen dem japanischen und dem englischen Text. Daher sollten die Schlüsselwörter, die in SIT hinzugefügt werden sollen, „机密的 document“ und „机密的document“ lauten. Ebenso sollten zwei Varianten verwendet werden, um den Ausdruck „東京オリンピック2020“ zu erkennen; „東京オリンピック 2020“ und „東京オリンピック2020“.

Wenn die Liste der Schlüsselwörter/Ausdrücke auch nicht chinesische/japanische Wörter enthält (für instance eigenständige englische Wörter), sollten Sie zwei Wörter/Schlüsselwort (keyword) Listen erstellen. Eins für Schlüsselwörter mit chinesischen/japanischen/doppelten Bytezeichen und ein weiteres für englische Wörter.

  • Wenn Sie z. B. ein Schlüsselwörterbuch/-Liste mit den drei Ausdrücken „Highly confidential“, „機密性が高い“ und „机密的document“ erstellen möchten, sollten Sie zwei Schlüsselwortlisten erstellen.
    1. Highly confidential
    2. 機密性が高い, 机密的document und 机密的 document

Achten Sie beim Erstellen eines regulären Ausdrucks mit einem Doppeltbyte-Bindestrich oder einem Doppeltbyte-Punkt darauf, beide Zeichen mit Escapezeichen zu versehen, so wie man einen Bindestrich oder einen Punkt in einem regulären Ausdruck mit Escapezeichen versehen würde. Hier sehen Sie ein Beispiel für einen regulären Ausdruck als Referenz:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Es wird empfohlen, eine Zeichenfolgenübereinstimmung anstelle einer Wortübereinstimmung in einer Schlüsselwortliste zu verwenden.