Informationen zu Typen vertraulicher Informationen, die auf genauer Datenübereinstimmung basieren
Vertrauliche Informationstypen (SITs ) werden verwendet, um vertrauliche Daten zu identifizieren, sodass Sie verhindern können, dass sie versehentlich oder unangemessen freigegeben werden. Sie werden auch verwendet, um relevante Daten in eDiscovery zu finden und Governanceaktionen auf bestimmte Arten von Informationen anzuwenden. Sie definieren eine benutzerdefinierte SIT basierend auf:
- Durch Muster
- Schlüsselwort (keyword) Nachweise wie Mitarbeiter, Sozialversicherungsnummer oder ID
- Ähnliche Zeichen als Nachweis in einem bestimmten Muster
- Konfidenzniveaus
Aber was ist, wenn Sie eine benutzerdefinierte SIT verwenden möchten, die genaue oder fast genaue Datenwerte verwendet, anstatt einen, der Übereinstimmungen basierend auf generischen Mustern findet? Mit der auf Exact Data Match (EDM) basierenden Klassifizierung können Sie einen benutzerdefinierten vertraulichen Informationstyp erstellen, der für Folgendes konzipiert ist:
- dynamisch und leicht zu aktualisieren
- führen zu weniger falsch positiven Ergebnissen
- arbeitet mit strukturierten vertraulichen Daten
- Vertrauliche Informationen sicherer verarbeiten und nicht für andere Personen freigeben, einschließlich Microsoft
- mit verschiedenen Microsoft Cloud Services verwendbar
Tipp
Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Starten Sie jetzt im Testhub für Microsoft Purview-Complianceportal. Erfahren Sie mehr über Anmelde- und Testbedingungen.
Mit der EDM-basierten Klassifizierung können Sie benutzerdefinierte SITs erstellen, die auf genaue Werte in einer Datenbank mit vertraulichen Informationen verweisen. Die Datenbank kann täglich aktualisiert werden und bis zu 100 Millionen Datenzeilen enthalten. Wenn Also Mitarbeiter, Patienten und Kunden kommen und gehen und sich Datensätze ändern, bleiben Ihre benutzerdefinierten Typen vertraulicher Informationen aktuell und anwendbar. Außerdem können Sie die EDM-basierte Klassifizierung mit Richtlinien verwenden, z. B. Microsoft Purview Data Loss Prevention- oder Microsoft Cloud App Security-Dateirichtlinien.
Das folgende Diagramm zeigt die grundlegenden Funktionsweisen der EDM-Klassifizierung:
Hinweis
Microsoft Purview Information Protection unterstützt die folgenden Sprachen, die Doppelbytezeichensätze verwenden:
- Chinesisch (vereinfacht)
- Chinesisch (traditionell)
- Koreanisch
- Japanisch
Diese Unterstützung ist für vertrauliche Informationstypen verfügbar. Weitere Informationen finden Sie unter Information Protection-Unterstützung für Doppelbytezeichensätze: Versionshinweise (Vorschau).
Was ist anders in einer EDM SIT
Wenn Sie mit EDM-SITs arbeiten, ist es hilfreich, einige Konzepte zu verstehen, die für sie einzigartig sind.
Schema
Ein Schema ist eine XML-Datei. Microsoft Purview verwendet das Schema, um zu bestimmen, ob Ihre Daten Zeichenfolgen enthalten, die mit denen übereinstimmen, für die Ihre vertraulichen Informationstypen konzipiert sind.
Die XML-Schemadatei definiert Folgendes:
- Der Name des Schemas, der später als Datenspeicher bezeichnet wird.
- Die Feldnamen, die in der Quelltabelle vertraulicher Informationen enthalten sind. Es gibt eine 1:1-Zuordnung von Schemafeldnamen zu den Spaltennamen in der Quelltabelle vertraulicher Informationen.
- Welche bestätigenden Beweisfelder erfordern den Übereinstimmungsmodus mit mehreren Token.
- Welche Datenfelder durchsuchbar sind.
- Gibt an, ob konfigurierbare Übereinstimmungen für jedes Feld unterstützt werden. Eine konfigurierbare Übereinstimmung ist eine mit Parametern, die eine Suche ändern, z. B. das Ignorieren von Trennzeichen und Groß-/Kleinschreibung in durchsuchten Werten.
Quelltabelle vertraulicher Informationen
Die Quelltabelle vertraulicher Informationen enthält die Werte, nach denen die EDM SIT sucht. Die Tabelle besteht aus Spalten und Zeilen. Die Spaltenüberschriften sind die Feldnamen, die Zeilen sind Instanzen von Elementen, und jede Zelle in einer Zeile enthält die Werte für dieses Element instance für dieses Feld.
Hier sehen Sie ein einfaches Beispiel für eine Quelltabelle vertraulicher Informationen.
Vorname | Nachname | Date of Birth |
---|---|---|
Jesaja | Langer | 05-05-1960 |
Ana | Bowman | 11-24-1971 |
Oscar | Ward | 02-12-1998 |
Regelpaket
Jeder vertrauliche Informationstyp verfügt über ein Regelpaket. Sie verwenden das Regelpaket in einer EDM SIT, um die verschiedenen Komponenten Ihrer EDM SIT zu definieren. Die folgende Tabelle enthält eine Beschreibung der einzelnen Komponenten.
Komponente | Beschreibung |
---|---|
Vergleich | Gibt das primäre Element (Datenfeld) an, das bei der genauen Suche verwendet werden soll. Dabei kann es sich um einen regulären Ausdruck mit oder ohne Prüfsummenüberprüfung, eine Schlüsselwort (keyword) Liste, ein Schlüsselwort (keyword) Wörterbuch oder eine Funktion handeln. |
Klassifizierung | Gibt die Übereinstimmung des Typs vertraulicher Informationen an, die eine EDM-Suche auslöst. |
Unterstützende Elemente | Elemente, die, wenn sie gefunden werden, Beweise liefern, die dazu beiträgt, das Vertrauen der Übereinstimmung zu erhöhen. Beispielsweise das Vorkommen eines Nachnamens in unmittelbarer Nähe zu einer tatsächlichen Sozialversicherungsnummer. Ein unterstützendes Element kann ein regulärer Ausdruck mit oder ohne Prüfsummenüberprüfung, eine Schlüsselwort (keyword) Liste, ein Schlüsselwort (keyword) Wörterbuch oder eine Übereinstimmung mit einer oder mehreren Tokenzeichenfolgen sein. |
Zuverlässigkeitsstufe (Hoch, Mittel, Niedrig) |
Gibt an, wie viele unterstützende Beweise zusätzlich zum primären Element erkannt werden. Je mehr unterstützende Beweise ein Element enthält, desto höher ist die Zuverlässigkeit, dass ein übereinstimmendes Element die vertraulichen Informationen enthält, nach denen Sie suchen. Weitere Informationen zu Konfidenzstufen finden Sie unter Grundlegende Teile eines Vertraulichen Informationstyps. |
Näherung | Die Anzahl der Zeichen zwischen dem primären und dem unterstützenden Element. |
Sie stellen Ihr eigenes Schema und Ihre eigenen Daten zur Verfügung.
Microsoft Purview enthält viele integrierte SITs , die vordefiniert sind. Diese SITs enthalten Schemas, REGEX-Muster, Schlüsselwörter und Konfidenzstufen. Bei EDM-SITs sind Sie jedoch für die Definition des Schemas sowie der primären und sekundären Felder verantwortlich, die vertrauliche Elemente identifizieren. Da die Schema- und primären und sekundären Datenwerte alle sehr vertraulich sind, verschlüsseln Sie sie über eine Hashfunktion , die einen zufällig generierten oder selbst bereitgestellten Salt-Wert enthält. Nur die Hashwerte werden in den Dienst hochgeladen, sodass Ihre vertraulichen Daten niemals geöffnet sind.
Primäre und sekundäre Unterstützungselemente
Wenn Sie eine EDM SIT erstellen, definieren Sie ein primäres Elementfeld im Regelpaket. EDM durchsucht dann ihren gesamten Inhalt nach dem primären Element. Damit EDM sie erkennen kann, müssen primäre Elemente über eine vorhandene SIT auffindbar sein.
Hinweis
Eine vollständige Liste der verfügbaren SITs finden Sie unter Entitätsdefinitionen für vertrauliche Informationen.
Sie müssen eine integrierte SIT finden, die die vertraulichen Informationen erkennt, die Von EDM SIT erkannt werden sollen. Wenn Ihr EDM SIT-Schema beispielsweise die US-Sozialversicherungsnummer als primäres Element aufweist, würden Sie es beim Erstellen Ihres EDM-Schemas der US-Sozialversicherungsnummer (SSN) SIT zugeordnet. Primäre Elemente müssen einem definierten Muster folgen, um erkannt zu werden.
Wenn das primäre Element in einem gescannten Element gefunden wird, sucht EDM nach sekundären Elementen (auch als unterstützende Elemente bezeichnet). Im Gegensatz zu primären Elementen haben sekundäre Elemente die Möglichkeit, einem Muster zu folgen. Wenn sekundäre Elemente mehrere Token enthalten, müssen diese Elemente entweder einer SIT zugeordnet werden, die diesen Inhalt erkennen kann, oder die für den Abgleich mit mehreren Token konfiguriert werden kann. In allen Fällen müssen sich sekundäre Elemente in einer bestimmten Nähe zum primären Element befinden, damit eine Übereinstimmung erkannt wird.
Funktionsweise des Abgleichs
EDM vergleicht Zeichenfolgen in Ihren Dokumenten und E-Mails mit Werten in der Quelltabelle vertraulicher Informationen. Anhand dieses Vergleichs wird ermittelt, ob die Werte im gescannten Inhalt in der Tabelle vorhanden sind. Die Bestimmung erfolgt durch vergleicht unidirektionale kryptografische Hashes.
Tipp
Sie können sowohl EDM-SITs als auch die vordefinierten SITs, auf denen sie basieren, zusammen in DLP-Regeln verwenden, um die Erkennung vertraulicher Daten zu verbessern. Verwenden Sie die EDM SIT mit höheren Konfidenzstufen und die vordefinierte SIT mit niedrigeren Konfidenzstufen. Verwenden Sie beispielsweise eine EDM SIT, die nach Sozialversicherungsnummer und anderen unterstützenden Daten mit strengen Anforderungen und hoher Zuverlässigkeit sucht. Wenn für Übereinstimmungen mit hoher Zuverlässigkeit konfiguriert ist, generiert EDM eine DLP-Übereinstimmung, wenn nur wenige Instanzen erkannt werden. Um eine DLP-Übereinstimmung auszulösen, wenn eine größere Anzahl von Vorkommen erkannt wird, verwenden Sie eine integrierte SIT, z . B. die US-Sozialversicherungsnummer.
Funktionsweise von unterstützenden Elementen mit EDM
Wie in What's different in an EDM SIT erläutert, sind unterstützende Elemente Elemente, die, wenn sie gefunden werden, Beweise liefern, die dazu beiträgt, das Vertrauen der Übereinstimmung zu erhöhen.
Mit Unterstützung für EDM-SITs können Sie nach unterstützenden Elementen suchen und erkennen, die aus mehreren Feldern bestehen. Unterstützende Elementabgleiche können aus Schlüsselwort (keyword) Listen, Schlüsselwort (keyword) Wörterbüchern, einzelnen alphanumerischen Zeichenfolgen oder Zeichenfolgen mit mehreren Token bestehen.
Sehen wir uns ein Beispiel an. Gehen Sie davon aus, dass Sie US-Sozialversicherungsnummern ermitteln möchten. Um die Übereinstimmungssicherheit zu erhöhen, enthalten first name
Ihre unterstützenden Elemente , last name
und date of birth
(DoB). Ihre Quelltabelle sieht also in etwa wie folgt aus:
SSN | FirstName | LastName | Dob |
---|---|---|---|
987-65-4320 | Jesaja | Langer | 05-05-1960 |
078-05-1120 | Ana | Bowman | 11-24-1971 |
219-09-9999 | Oscar | Ward | 02-12-1998 |
Wenn Sie nach übereinstimmenden unterstützenden Elementen in einer geschützten Datei suchen, sucht Ihr EDM SIT nach jedem unterstützenden Element (einzeln und in Kombination), sobald das primäre Element erkannt wurde.
Für instance, sagen Sie, dass die erste Sozialversicherungsnummer erkannt wird. Die Genaue Datenübereinstimmungsfunktion sucht als Nächstes nach Kombinationen von unterstützenden Elementen in allen Spalten in Ihrer Quelltabelle:
- Jesaja
- Langer
- 05-05-1960
- Isaiah Langer
- Jesaja 05-05-1960
- Langer 05-05-1960
- Jesaja Langer 05-05-1960
Abgleich mit mehreren Token
Der Abgleich mit mehreren Token ist so konzipiert, dass er verwendet wird, wenn ihr bestätigendes Beweisfeld Werte mit mehreren Token enthält, aber das Abgleichen dieser Werte mit einem SIT nicht einfach ist. Für instance, wenn Sie über ein Address
Feld verfügen, das Werte wie 1 Microsoft Way, Redmond, WA
oder 123 Main Street, New York, NY
enthält.
Dieses Feature ermöglicht es EDM, die Hashes aufeinanderfolgender Wörter im Inhalt mit den Hashes der Felder mit mehreren Token in Ihrer Datenquelle zu vergleichen. Wenn sie identisch sind, erzeugt EDM eine Übereinstimmung. Auf diese Weise kann EDM Felder mit mehreren Token erkennen, z. B. Namen, Adressen, Medizinische Beschwerden oder andere bestätigende Beweisfelder, die mehr als ein Wort enthalten können, sofern sie in Ihrem EDM-Schema als mehrere Token gekennzeichnet sind.
Wenn Sie beispielsweise den Abgleich mit mehreren Token als Übereinstimmungsoption auswählen, erhalten Sie zwei zusätzliche Vorteile:
- Ihre Richtlinien erkennen Inhalte, die mit mehreren Feldern in den Spalten in Der Quelltabelle übereinstimmen.
- Die Quelltabelle kann Felder mit Zeichenfolgenwerten enthalten, die aus einer vorkonfigurierten Anzahl von Wörtern bestehen. Die folgende Tabelle enthält eine Beispielquelltabelle:
SSN | Name | Straße |
---|---|---|
987-65-4320 | Isaiah Langer | 1432 Lincoln Road |
078-05-1120 | Ana Bowman | 8250 First Street |
219-09-9999 | Oscar Ward | 424 205th Avenue |
Beim Abgleich mit mehreren Token werden die Felder Name und Street Address sowohl als unabhängige unterstützende Elementzeichenfolgen als auch in Kombination als einzelne Felder abgeglichen. Wenn also als Zeichenfolgen mit mehreren Token als unterstützende Elemente für die Sozialversicherungsnummer 987-65-4320 abgeglichen werden, sind die Übereinstimmungen:
- Isaiah Langer
- 1432 Lincoln Road
Wenn eine Übereinstimmung in Kombination erfolgt, sieht die Übereinstimmung wie folgt aus:
- Isaiah Langer + 1432 Lincoln Road
Der Abgleich mit mehreren Token wird auch für Doppelbytezeichensätze unterstützt, die in der Regel keine Leerzeichen zum Trennen von Wörtern verwenden.
Dienste, die EDM unterstützt
Dienst | Speicherorte |
---|---|
Verhinderung von Datenverlust in Microsoft Purview | – SharePoint – OneDrive – Teams Chat – Exchange Online – Geräte |
Microsoft Defender for Cloud Apps | – SharePoint – OneDrive |
Automatische Bezeichnung (dienstseitig) | – SharePoint – OneDrive – Exchange Online |
Automatische Bezeichnung (clientseitig) | – Word – Excel – PowerPoint – Exchange-Desktopclients |
Kundenseitig verwalteter Schlüssel | – SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients – Geräte |
eDiscovery | – SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients |
Insider-Risikomanagement | – SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients |