Freigeben über


Exportieren von Quelldaten für genaue Daten, die auf vertraulichen Informationstypen basieren

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre organization die Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Beginnen Sie jetzt im Microsoft Purview-Complianceportal Testversionshub. Erfahren Sie mehr über die Anmelde- und Testbedingungen.

Gilt für

Die Tabelle vertraulicher Daten ist eine Textdatei, die Zeilen mit Werten enthält, mit denen Sie den Inhalt in Ihren Dokumenten vergleichen, um vertrauliche Daten zu identifizieren. Diese Werte können personenbezogene Informationen, Produktdatensätze oder andere vertrauliche Daten in Textform sein, die Sie in Ihren Inhalten erkennen und schützen möchten.

Nachdem Sie die Daten in Ihrer Tabelle (in einem der unterstützten Formate) exportiert haben, können Sie ein EDM-Schema erstellen.

Definieren des EDM-vertraulichen Typs

Wenn Sie Ihren vertraulichen EDM-Typ definieren, besteht eine der wichtigsten Entscheidungen darin, zu definieren, welche Felder Ihre primären Felder sind. Primäre Felder müssen einem erkennbaren Muster folgen und als durchsuchbare Felder (Spalten) in Ihrem EDM-Schema definiert werden. Sekundäre Felder müssen keinem Muster folgen, da sie mit allen Umgebenden Übereinstimmungen mit den primären Feldern verglichen werden.

Verwenden Sie diese Regeln, um zu entscheiden, welche Spalten Sie als primäre Felder verwenden sollten:

  • Wenn Sie vertrauliche Daten basierend auf dem Vorhandensein eines einzelnen Werts erkennen müssen, der einem Feld in Der Tabelle mit vertraulichen Daten entspricht, muss diese Spalte als primäres Element für eine EDM SIT definiert werden.
  • Wenn mehrere Kombinationen verschiedener Felder in Der Tabelle mit vertraulichen Daten im Inhalt erkannt werden müssen, identifizieren Sie die Spalten, die den meisten solchen Kombinationen gemeinsam sind, und legen Sie sie als primäre Elemente fest. Legen Sie Kombinationen der anderen Felder als sekundäre Elemente fest.
  • Wenn eine Spalte, die Sie als primäres Element verwenden möchten, keinem erkennbaren Muster folgt, z any text string . B. oder nach erkennbaren Mustern, die irgendwo in einem großen Prozentsatz von Dokumenten oder E-Mails vorhanden wären, wählen Sie andere, besser strukturierte Spalten als primäre Elemente aus.

Wenn Sie beispielsweise über die Spalten full name, date of birth, account numberund Social Security Numberverfügen, auch wenn der Vor- und Nachname die Spalten sind, die den verschiedenen Kombinationen von Daten, die Sie erkennen möchten, gemeinsam sind, folgen solche Zeichenfolgen nicht nach Mustern, die leicht identifizierbar sind und möglicherweise schwer als vertraulicher Informationstyp zu definieren sind. Hierfür gibt es eine Reihe von Gründen:

  • Einige Namen beginnen möglicherweise nicht mit einem Großbuchstaben.
  • einige können aus zwei, drei oder mehr Wörtern/Zeichenfolgen gebildet werden.
  • einige können Zahlen oder andere nicht alphabetische Zeichen enthalten. Geburtsdatum lassen sich leichter identifizieren, aber da jede E-Mail und die meisten Dokumente mindestens ein Datum enthalten, ist ein DateOfBirth Feld auch kein guter Kandidat. Verwenden Sie stattdessen Felder wie Sozialversicherungsnummern und Kontonummern, die gute Kandidaten für primäre Felder sind.

Beispieldateivorlagen

Um die Auswahl Ihrer primären Felder zu vereinfachen, haben wir einige Beispieldateivorlagen für Folgendes zusammengestellt:

Hierbei handelt es sich um durch Trennzeichen getrennte Dateien (.csv), die die am häufigsten in diesen Branchenbranchen verwendeten Werte als Spaltenüberschriften aufweisen, zusammen mit von Microsoft generierten synthetischen Werten in den Zeilen. Verwenden Sie die Spaltenüberschriften, um Ihre primären Felder zu entscheiden. Es empfiehlt sich, nur die erforderlichen Quelldaten zu exportieren. Die Spaltenüberschriften schlagen die relevantesten Felder vor.

Informationen zur Verwendung der Beispieldateivorlagen finden Sie unter Verwenden der Beispieldateivorlagen.

Speichern vertraulicher Daten im format.csv, TSV oder durch Pipe getrenntes Format

  1. Identifizieren Sie die vertraulichen Informationen, die Sie verwenden möchten. Exportieren Sie die Daten in eine App wie Microsoft Excel, und speichern Sie die Datei als Textdatei. Die Datei kann in einem der folgenden Formate gespeichert werden: .csv (durch Trennzeichen getrennte Werte), TSV-Format (tabtrennte Werte) oder (|)(durch Pipe getrennte) Format. Das TSV-Format wird empfohlen, wenn Ihre Datenwerte Kommas enthalten können, z. B. Straßenadressen. Die Datendatei kann maximal Folgendes umfassen:

    • bis zu 100 Millionen Zeilen vertraulicher Daten
    • bis zu 32 Spalten (Felder) pro Datenquelle
    • Bis zu 10 Spalten (Felder), die als durchsuchbar gekennzeichnet sind
  2. Strukturieren Sie die vertraulichen Daten in der .csv- oder TSV-Datei so, dass die erste Zeile die Namen der Felder enthält, die für die EDM-basierte Klassifizierung verwendet werden. In Ihrer Datei haben Sie möglicherweise Feldnamen wie "ssn", "birthdate", "firstname", "lastname". Die Namen der Spaltenüberschriften dürfen keine Leerzeichen oder Unterstriche enthalten. Die CSV-Datei, die wir in diesem Artikel verwenden, trägt beispielsweise den Namen PatientRecords.csv und hat u. a. die Spalten PatientID, MRN, LastName, FirstName und SSN.

  3. Achten Sie auf das Format der Felder für sensible Daten; insbesondere Felder, die möglicherweise Kommas im Inhalt enthalten. Beispielsweise würde eine Adresse, die den Wert "Seattle, WA" enthält, als zwei separate Felder analysiert, wenn das .csv Format ausgewählt ist. Um dies zu vermeiden, verwenden Sie das TSV-Format, oder umgeben Sie das Komma, das Werte enthält, in der Tabelle mit vertraulichen Daten in doppelte Anführungszeichen. Wenn Kommas, die Werte enthalten, auch Leerzeichen enthalten, müssen Sie eine benutzerdefinierte SIT erstellen, die dem entsprechenden Format entspricht. Beispielsweise eine SIT, die eine Mehrwortzeichenfolge mit Kommas und Leerzeichen erkennt.

Nächster Schritt

oder

Siehe auch