Weitere Informationen zu Typen vertraulicher Informationen

Artikel
03/26/2024

Das Identifizieren und Klassifizieren vertraulicher Elemente, die sich unter der Kontrolle Ihrer organization befinden, ist der erste Schritt in der disziplin Information Protection. Microsoft Purview bietet drei Möglichkeiten, Elemente zu identifizieren, damit sie klassifiziert werden können:

manuell nach Benutzern
über automatisierte Mustererkennung, wie bei vertraulichen Informationstypen
über maschinelles Lernen

Typen vertraulicher Informationen (SITs) sind musterbasierte Klassifizierer. Sie erkennen vertrauliche Informationen wie Sozialversicherungs-, Karte- oder Bankkontonummern, um vertrauliche Elemente zu identifizieren. Eine vollständige Liste aller SITs finden Sie unter Entitätsdefinitionen für vertrauliche Informationen.

Microsoft stellt eine große Anzahl von vorkonfigurierten SITs bereit, oder Sie können eigene erstellen.

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Starten Sie jetzt im Testhub für Microsoft Purview-Complianceportal. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Typen vertraulicher Informationen werden in verwendet.

Kategorien vertraulicher Informationstypen

Integrierte Typen vertraulicher Informationen

Microsoft hat diese SITs erstellt und werden standardmäßig in der Compliancekonsole angezeigt. Diese SITs können nicht bearbeitet werden, aber Sie können sie als Vorlagen verwenden, indem Sie sie kopieren, um benutzerdefinierte Typen vertraulicher Informationen zu erstellen. Eine vollständige Liste aller SITs finden Sie unter Entitätsdefinitionen vom Typ vertraulicher Informationen .

Typen vertraulicher Informationen zu benannten Entitäten

Benannte Entitäts-SITs werden standardmäßig auch in der Konformitätskonsole angezeigt. Sie erkennen Personennamen, physische Adressen und medizinische Geschäftsbedingungen. Sie können nicht bearbeitet oder kopiert werden. Weitere Informationen finden Sie unter Informationen zu benannten Entitäten.

Benannte Entitäts-SITs gibt es in zwei Typen:

entbündelt

Diese benannten Entitäts-SITs haben einen engeren Fokus, z. B. ein einzelnes Land oder eine Region oder eine einzelne Klasse von Begriffen. Verwenden Sie sie, wenn Sie eine Richtlinie zur Verhinderung von Datenverlust (Data Loss Prevention, DLP) mit einem engeren Erkennungsbereich benötigen. Weitere Informationen finden Sie unter Beispiele für benannte Entitäts-SITs.

Gebündelt

Gebündelte benannte Entitäts-SITs erkennen alle möglichen Übereinstimmungen in einer Klasse, z. B. Alle physischen Adressen. Verwenden Sie sie als allgemeine Kriterien in Ihren DLP-Richtlinien zum Erkennen vertraulicher Elemente. Weitere Informationen finden Sie unter Beispiele für benannte Entitäts-SITs.

Benutzerdefinierten Typen vertraulicher Informationen

Wenn die vorkonfigurierten Typen vertraulicher Informationen Nicht Ihren Anforderungen entsprechen, können Sie ihre eigenen benutzerdefinierten Typen vertraulicher Informationen erstellen, die Sie vollständig definieren, oder Sie können einen der integrierten Typen kopieren und ändern. Weitere Informationen finden Sie unter

Create einen benutzerdefinierten vertraulichen Informationstyp im Microsoft Purview-Complianceportal.

Genaue Daten stimmen mit vertraulichen Informationstypen überein

Alle EDM-basierten SITs (Exact Data Match) werden von Grund auf neu erstellt. Sie verwenden sie, um Elemente zu erkennen, die genaue Werte aufweisen, die Sie in einer Datenbank mit vertraulichen Informationen definieren. Weitere Informationen finden Sie unter Informationen zu genauen Datenüberstimmungen basierenden Typen vertraulicher Informationen.

Grundlegende Teile eines Vertraulichen Informationstyps

Jede SIT-Entität (Sensitive Information Type) besteht aus den folgenden Feldern:

Namen: Gibt an, wie auf den Typ vertraulicher Informationen verwiesen wird.
Beschreibung: Erläuterung, wonach der Typ vertraulicher Informationen sucht.
Muster: Definiert, was ein SIT erkennt. Es besteht aus den folgenden Komponenten: primäres Element, unterstützende Elemente, Konfidenzniveau und Nähe.

In der folgenden Tabelle werden die einzelnen Komponenten der Muster beschrieben, die beim Definieren von Typen vertraulicher Informationen verwendet werden.

Musterkomponente	Beschreibung
Primäres Element	Das Standard Element, nach dem der Typ vertraulicher Informationen sucht. Dabei kann es sich um einen regulären Ausdruck mit oder ohne Prüfsummenüberprüfung, eine Schlüsselwort (keyword) Liste, ein Schlüsselwort (keyword) Wörterbuch oder eine Funktion handeln. Jeder dieser Typen von Elementen kann entweder aus der Liste der vorhandenen SITs ausgewählt oder von einem Benutzer mit Administratorberechtigungen benutzerdefinierten Definiert werden. Sobald ein Element definiert wurde, wird es in der Liste der vorhandenen Elemente zusammen mit den integrierten Elementen angezeigt.
Unterstützendes Element	Ein Element, das als bestätigenden Beweis fungiert. Wenn sie enthalten sind, tragen unterstützende Elemente dazu bei, das Konfidenzniveau in Bezug auf die Genauigkeit erkannter Übereinstimmungen zu erhöhen. Wenn das primäre Element beispielsweise als `SSN` definiert ist (besteht aus neun Ziffern), und die Schlüsselwort (keyword) Sozialversicherungsnummer (SSN) als unterstützendes Element verwendet wird, wenn sie in der Nähe von `SSN`gefunden wird, ist die Zuverlässigkeit, dass die `SSN` erkannte eine Sozialversicherungsnummer ist, höher als wenn die SSN(Sozialversicherungsnummer) Schlüsselwort (keyword) nicht vorhanden ist. Ein unterstützendes Element kann ein regulärer Ausdruck (mit oder ohne Prüfsummenüberprüfung), eine Schlüsselwort (keyword)-Liste oder ein Schlüsselwort (keyword) Wörterbuch sein.
Zuverlässigkeitsstufe	Es gibt drei Konfidenzstufen in Bezug auf erkannte Übereinstimmungen: hoch, mittel und niedrig. Das Konfidenzniveau gibt an, wie viele unterstützende Beweise zusammen mit dem primären Element erkannt werden. Je mehr unterstützende Beweise ein erkanntes Element enthält, desto höher ist die Zuverlässigkeit, dass ein übereinstimmendes Element die gesuchten vertraulichen Informationen enthält. Weitere Informationen zu Konfidenzstufen finden Sie im Video weiter unten in diesem Artikel.
Näherung	Gibt an, wie nah sich ein unterstützendes Element in Bezug auf die Anzahl der Zeichen zwischen ihnen an einem primären Element befindet.

Grundlegendes zur Nähe

Das folgende Diagramm zeigt, wie die Übereinstimmungserkennung in Bezug auf die Nähe funktioniert. In diesem Beispiel ist das primäre Element das SSN Feld, und die SIT-Definition erfordert, dass sich jedes instance eines SSN Werts in einer angegebenen Nähe zu mindestens einem der folgenden Elemente befinden muss:

AccountNumber
Name
DateOfBirth

Im Diagramm sehen Wir, dass die zu überprüfenden Daten drei verschiedene Instanzen des SSN Felds enthalten: SSN1, SSN2, SSN3und SSN4.

Um zu verstehen, wie Näherung funktioniert, sehen wir uns zunächst einige Beispielerkennungskriterien an. Hier sollen neunstellige Sozialversicherungsnummern ermittelt werden. Die Erkennungskriterien erfordern, dass ein neunstelliger regulärer Ausdruck (primäres Element) in Verbindung mit unterstützenden Beweisen (unter den AccountNumberFeldern , Nameund DateOfBirth ) gefunden wird, die innerhalb von 250 Zeichen (die Nähe) angezeigt werden.

Wie im Diagramm dargestellt, erfüllen nur die primären Elemente SSN1 und SSN4 die soeben beschriebenen Erkennungskriterien. Lassen Sie uns näher darauf eingehen.

Im Fall von SSN1befindet sich der DateOfBirth Wert innerhalb des angegebenen Näherungsfensters von 250 Zeichen, sodass eine Übereinstimmung erkannt wird.
In beiden Fällen von SSN2 und SSN3tritt keines der unterstützenden Elemente innerhalb von 250 Zeichen des primären Elements auf, sodass diese Werte nicht als Übereinstimmung erkannt werden. Wenn Sie sich jedoch das Näherungsfenster für SSN2 im Diagramm ansehen, fragen Sie sich möglicherweise: Warum gibt es keine Übereinstimmung für SSN2? Erstreckt sich das SSN2 Näherungsfenster nicht auf das Name Element? Das ist eine gute Frage. Die Antwort lautet: Nicht ganz. Während das Näherungsfenster in den Name Wert erweitert wird, enthält es nicht den gesamten Wert, sodass das Muster nicht übereinstimmt.
Schließlich gibt es im Fall von SSN4zwei unterstützende Elemente innerhalb des Näherungsfensters, sowohl als DateOfBirthauch Name , sodass dieses Muster ebenfalls übereinstimmt.

Weitere Informationen zu Konfidenzniveaus finden Sie in diesem kurzen Video.

Beispieltyp vertraulicher Informationen

Argentinische nationale Identitätsnummer (DNI)

Format

Acht Ziffern, durch Punkte getrennt

Muster

Acht Ziffern:

Zwei Ziffern
ein Punkt
drei Ziffern
ein Punkt
Drei Ziffern

Prüfsumme

Nein

Definition

Eine DLP-Richtlinie hat eine mittlere Zuverlässigkeit, dass sie diese Art vertraulicher Informationen erkannt hat, wenn innerhalb einer Nähe von 250 Zeichen:

Der reguläre Ausdruck Regex_argentina_national_id inhalt findet, der dem Muster entspricht.
Es wird ein Schlüsselwort (keyword) aus Keyword_argentina_national_id gefunden.

<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Schlüsselwörter

Keyword_argentina_national_id

Argentina National Identity number
Identität
Identifikation Nationaler Personalausweis
DNI
Nationales Personenregister (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

Mehr zu Konfidenzniveaus

In einer Entitätsdefinition des Typs vertraulicher Informationen gibt das Konfidenzniveau an, wie viele unterstützende Beweise zusätzlich zum primären Element erkannt werden. Je mehr unterstützende Beweise ein Element enthält, desto höher ist die Zuverlässigkeit, dass ein übereinstimmendes Element die vertraulichen Informationen enthält, nach denen Sie suchen. Beispielsweise enthalten Übereinstimmungen mit einem hohen Konfidenzniveau mehr unterstützende Beweise in unmittelbarer Nähe zum primären Element, während Übereinstimmungen mit einem niedrigen Konfidenzniveau wenig bis gar keine unterstützenden Beweise in unmittelbarer Nähe enthalten würden.

Ein hohes Konfidenzniveau gibt die wenigsten falsch positiven Ergebnisse zurück, kann jedoch zu mehr falsch negativen Ergebnissen führen. Niedrige oder mittlere Konfidenzstufen geben mehr falsch positive Ergebnisse zurück, aber nur wenige bis null falsch negative Ergebnisse.

niedrige Zuverlässigkeit: Übereinstimmend elemente enthalten die wenigsten falsch negativen, aber die meisten falsch positiven Ergebnisse. Niedrige Konfidenz gibt alle Übereinstimmungen mit niedriger, mittlerer und hoher Konfidenz zurück. Das niedrige Konfidenzniveau hat den Wert 65.
Mittlere Zuverlässigkeit: Übereinstimmend elemente enthalten eine durchschnittliche Anzahl falsch positiver und falsch negativer Ergebnisse. Mittlere Konfidenz gibt alle Übereinstimmungen mit mittlerem und hohem Konfidenz zurück. Das mittlere Konfidenzniveau hat einen Wert von 75.
hohe Zuverlässigkeit: Übereinstimmend elemente enthalten die wenigsten falsch positiven Ergebnisse, aber die meisten falsch negativen Ergebnisse. Hohe Zuverlässigkeit gibt nur Übereinstimmungen mit hoher Zuverlässigkeit zurück und hat den Wert 85.

Sie sollten Muster mit hohem Konfidenzniveau mit niedrigen Anzahlen verwenden, z. B. fünf bis 10, und Muster mit niedriger Konfidenz mit einer höheren Anzahl, z. B. 20 oder mehr.

Hinweis

Wenn Sie vorhandene Richtlinien oder benutzerdefinierte Typen vertraulicher Informationen (SITs) mit zahlenbasierten Konfidenzstufen (auch als Genauigkeit bezeichnet) definiert haben, werden diese automatisch den drei diskreten Konfidenzstufen zugeordnet. niedriges Vertrauen, mittleres Vertrauen und hohe Zuverlässigkeit auf der Benutzeroberfläche des Security @ Compliance Center.

Alle Richtlinien mit minimaler Genauigkeit oder benutzerdefinierte SIT-Muster mit Konfidenzstufen zwischen 76 und 100 werden einer hohen Zuverlässigkeit zugeordnet.
Alle Richtlinien mit minimaler Genauigkeit oder benutzerdefinierte SIT-Muster mit Konfidenzstufen zwischen 66 und 75 werden einer mittleren Zuverlässigkeit zugeordnet.
Alle Richtlinien mit minimaler Genauigkeit oder benutzerdefinierten SIT-Mustern mit Einem Konfidenzniveau kleiner oder gleich 65 werden einer niedrigen Zuverlässigkeit zugeordnet.

Benutzerdefinierte Typen vertraulicher Informationen erstellen

Sie können aus mehreren Optionen wählen, um benutzerdefinierte Typen vertraulicher Informationen im Complianceportal zu erstellen.

Verwenden der Benutzeroberfläche : Sie können einen benutzerdefinierten Vertraulichen Informationstyp über die Benutzeroberfläche des Complianceportals einrichten. Mit dieser Methode können Sie reguläre Ausdrücke, Schlüsselwörter und Schlüsselwörterbücher verwenden. Weitere Informationen finden Sie unter Erstellen eines benutzerdefinierten Typs vertraulicher Informationen.
Verwenden von EDM : Sie können benutzerdefinierte Typen vertraulicher Informationen mithilfe der EDM-basierten Klassifizierung (Exact Data Match) einrichten. Mit dieser Methode können Sie anhand einer sicheren Datenbank, die sie regelmäßig aktualisieren können, einen dynamischen Typ vertraulicher Informationen erstellen. Weitere Informationen finden Sie unter Informationen zu auf exakten Datenüberstimmungen basierenden Typen vertraulicher Informationen.
Verwenden von PowerShell : Sie können benutzerdefinierte Typen vertraulicher Informationen mithilfe von PowerShell einrichten. Diese Methode ist zwar komplexer als die Verwendung der Benutzeroberfläche, Sie haben aber mehr Konfigurationsoptionen. Weitere Informationen finden Sie unter Create eines benutzerdefinierten vertraulichen Informationstyps in Security & Compliance PowerShell.

Hinweis

Verbesserte Zuverlässigkeitsstufen sind für die sofortige Verwendung in Microsoft Purview-Diensten zur Verhinderung von Datenverlust, Informationsschutz, Kommunikationscompliance, Datenlebenszyklusverwaltung und Datensatzverwaltung verfügbar. Information Protection unterstützt jetzt Sprachen mit Doppelbytezeichensatz für:

Chinesisch (vereinfacht)
Chinesisch (traditionell)
Koreanisch
Japanisch

Diese Unterstützung ist für vertrauliche Informationstypen verfügbar. Weitere Informationen finden Sie in den Versionshinweisen zur Information Protection-Unterstützung für Doppelbytezeichensätze.

Tipp

Um Muster zu erkennen, die chinesische/japanische Zeichen und einzelne Bytezeichen enthalten, oder um Muster zu erkennen, die Chinesisch/Japanisch und Englisch enthalten, definieren Sie zwei Varianten des Schlüsselworts oder regulären Ausdrucks.

Verwenden Sie z. B. zwei Varianten des Schlüsselworts, um ein Schlüsselwort wie „机密的document“ zu erkennen; eine mit einem Leerzeichen zwischen dem japanischen und dem englischen Text und eine andere ohne Leerzeichen zwischen dem japanischen und dem englischen Text. Daher sollten die Schlüsselwörter, die in SIT hinzugefügt werden sollen, „机密的 document“ und „机密的document“ lauten. Ebenso sollten zwei Varianten verwendet werden, um den Ausdruck „東京オリンピック2020“ zu erkennen; „東京オリンピック 2020“ und „東京オリンピック2020“.

Wenn die Liste der Schlüsselwörter/Ausdrücke auch nicht chinesische/japanische Wörter enthält (für instance, nur Englisch), sollten Sie zwei Wörterbücher/Schlüsselwort (keyword)-Listen erstellen. Eines für Schlüsselwörter mit chinesischen/japanischen/doppelten Bytezeichen und ein weiteres für Nur-Englisch-Schlüsselwörter.

Wenn Sie beispielsweise ein Schlüsselwort (keyword) Wörterbuch/eine Liste mit den drei Ausdrücken "Streng vertraulich", "機密性が高い" und "机密的document" erstellen möchten, sollten Sie zwei Schlüsselwort (keyword)-Listen erstellen.
1. Highly confidential
2. 機密性が高い, 机密的document und 机密的 document

Stellen Sie beim Erstellen eines Regulären Ausdrucks mithilfe eines Doppelbytebindestrichs oder eines Doppeltbyte-Zeitraums sicher, dass beide Zeichen wie ein Bindestrich oder ein Punkt in einem Regex mit Escapezeichen versehen werden. Hier sehen Sie ein Beispiel für einen regulären Ausdruck als Referenz:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Es wird empfohlen, eine Zeichenfolgen-Übereinstimmung anstelle von Wort-Übereinstimmung in einer Schlüsselwort (keyword)-Liste zu verwenden.

Testen des Typs vertraulicher Informationen

Sie können die SIT testen, indem Sie eine Beispieldatei hochladen. Die Testergebnisse zeigen die Anzahl der Übereinstimmungen für die einzelnen Konfidenzstufen an. Sie können integrierte SITs, benutzerdefinierte SITs, trainierbare Klassifizierer und genaue Datenversprechungen testen.

Testen des integrierten und benutzerdefinierten Vertraulichen Informationstyps

Testen Sie, ob die genauen Daten mit dem Typ vertraulicher Informationen übereinstimmen.

Bereitstellen von Feedback zur Übereinstimmungsgenauigkeit/Nicht-Übereinstimmungsgenauigkeit in vertraulichen Informationstypen

Sie können die Anzahl der Übereinstimmungen eines SIT unter Typen vertraulicher Informationen und Inhalts-Explorer anzeigen. Sie können auch Feedback dazu geben, ob ein Element tatsächlich eine Übereinstimmung ist oder nicht, indem Sie den Feedbackmechanismus "Übereinstimmung, nicht übereinstimmen " verwenden und dieses Feedback verwenden, um Ihre SITs zu optimieren. Weitere Informationen finden Sie unter Erhöhen der Klassifizierungsgenauigkeit.