Freigeben über


Erstellen eines Typs vertraulicher Informationen mit genauer Datenübereinstimmung/Regelpaket

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Starten Sie jetzt im Testhub für Microsoft Purview-Complianceportal. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Gilt für

Sie können eine genaue Datenübereinstimmung (EDM) SIT (SIT) mithilfe des Tools Use the Exact Data Match schema and SIT pattern im Microsoft Purview Compliance Portal erstellen, oder Sie können das Regelpaket manuell als XML-Datei erstellen. Sie können die beiden Methoden auch kombinieren, indem Sie eine Methode zum Erstellen des Schemas und später die andere Methode verwenden, um es zu bearbeiten.

Wenn Sie nicht mit EDM-basierten SITS oder deren Implementierung vertraut sind, sollten Sie sich mit Folgendem vertraut machen:

Voraussetzungen

Führen Sie die Schritte in diesen Artikeln aus:

  1. Exportieren von Quelldaten für genaue Daten, die auf vertraulichen Informationstypen basieren
  2. Erstellen des Schemas für Typen vertraulicher Informationen, die auf genauer Datenübereinstimmung basieren
  3. Erstellen eines Hash und Hochladen der Quelltabelle für vertrauliche Informationen für Typen vertraulicher Informationen mit genauer Datenübereinstimmung
  • Unabhängig davon, ob Sie eine EDM SIT mithilfe des Tools oder der XML-Datei des Regelpakets über PowerShell erstellen möchten, müssen Sie über die Berechtigungen eines globalen Administrators oder Complianceadministrators verfügen, um eine benutzerdefinierte SIT über die Benutzeroberfläche zu erstellen, zu testen und bereitzustellen. Weitere Informationen finden Sie unter Informationen zu Administratorrollen in Office 365.

Wichtig

Microsoft empfiehlt die Verwendung von Rollen mit den geringsten Berechtigungen. Dies trägt zur Verbesserung der Sicherheit für Ihre Organisation bei. Globaler Administrator ist eine Rolle mit hohen Berechtigungen, die nur in Szenarien verwendet werden sollte, in denen eine weniger privilegierte Rolle nicht verwendet werden kann.

  • Identifizieren Sie eines der integrierten SITs, die als PRIMÄRE ELEMENTE SIT verwendet werden sollen.
    • Wenn keines der integrierten SITs mit den Daten in der von Ihnen ausgewählten Spalte übereinstimmt, müssen Sie eine benutzerdefinierte SIT erstellen, die dies tut.
    • Wenn Sie die Option Ignorierte Trennzeichen für die primäre Elementspalte in Ihrem Schema ausgewählt haben, stellen Sie sicher, dass die von Ihnen erstellte benutzerdefinierte SIT daten mit und ohne die ausgewählten Trennzeichen abgleicht.
    • Wenn Sie eine integrierte SIT verwenden, stellen Sie sicher, dass sie genau die Zeichenfolgen erkennt, die Sie auswählen möchten, und schließen Sie keine umgebenden Zeichen ein oder schließen Sie einen gültigen Teil der Zeichenfolge aus, der in Ihrer Tabelle mit vertraulichen Informationen gespeichert ist.

Weitere Informationen finden Sie unter Entitätsdefinitionen für vertrauliche Informationen und Erstellen von benutzerdefinierten Typen vertraulicher Informationen.

Verwenden des Exact Data Match-Schemas und des SIT-Mustertools

Sie können dieses Tool verwenden, um Ihre SIT-Dateien zu erstellen, um den Prozess zu vereinfachen.

Ein EDM SIT besteht aus einem oder mehreren Mustern. Jedes Muster beschreibt eine Kombination von Feldern aus dem Schema, die verwendet werden, um vertrauliche Inhalte in einem Dokument oder einer E-Mail zu identifizieren (Beweis).

Wählen Sie die entsprechende Registerkarte für das von Ihnen verwendete Portal aus. Weitere Informationen zum Microsoft Purview-Portal finden Sie im Microsoft Purview-Portal. Weitere Informationen zum Complianceportal finden Sie im Microsoft Purview-Complianceportal.

  1. Melden Sie sich beim Microsoft Purview-Portal>information protection>ClassifiersEDM-Klassifizierer> an.

    1. Legen Sie die Umschaltfläche Für neue EDM-Erfahrung auf Aus fest.
  2. Wählen Sie EDM-Typen für vertrauliche Informationen und EDM-Typ für vertrauliche Informationen erstellen aus, um das Konfigurationstool für den Typ vertraulicher Informationen zu öffnen.

  3. Wählen Sie Vorhandenes EDM-Schema auswählen aus, und wählen Sie das Schema aus, das Sie unter Erstellen des Schemas für genaue Datenabgleiche basierende typen vertraulicher Informationen erstellt haben. Klicken Sie auf Hinzufügen.

  4. Wählen Sie Weiter und dann Muster erstellen.

  5. Wählen Sie die Elemente Konfidenzstufe und Primär aus. Weitere Informationen zu Konfidenzstufen finden Sie unter Informationen zu typen vertraulicher Informationen.

  6. Wählen Sie den Typ vertraulicher Informationen des Primary-Elements aus, um zu definieren, welcher Text im Dokument mit allen Werten im Feld des primären Elements verglichen wird. Weitere Informationen zu den verfügbaren Typen vertraulicher Informationen finden Sie unter SIT-Entitätsdefinitionen .

    Wichtig

    Wählen Sie eine SIT aus, die dem Format des gesuchten Inhalts genau entspricht. Die Auswahl eines SIT-Werts, der unnötigen Inhalten entspricht, z. B. einer, die allen Textzeichenfolgen entspricht, oder alle Zahlen kann zu übermäßiger Auslastung im System führen, was dazu führen kann, dass vertrauliche Informationen unentdeckt bleiben.

  7. Wählen Sie Ihre unterstützenden Elemente und Übereinstimmungsoptionen aus.

  8. Klicken Sie auf Fertig.

  9. Wählen Sie Muster erstellen aus, wenn Sie zusätzliche Muster für Ihre EDM SIT erstellen möchten.

  10. Wählen Sie Weiter aus.

  11. Wählen Sie den gewünschten Empfohlenen Konfidenzgrad und die Zeichennähe aus. Dies ist der Standardwert für die gesamte EDM SIT. (Informationen zur Zeichennähe finden Sie unter Grundlegendes zur Näherung. Wählen Sie Weiter aus.

  12. Wählen Sie Weiter und geben Sie einen Namen und eine Beschreibung für Administratoren ein.

    Beim Erstellen der Schemadatei müssen Die Spaltenüberschriften (Datenfelder) die folgenden Benennungsanforderungen erfüllen:
    - Muss mit einem Buchstaben beginnen und muss aus mindestens drei alphanumerischen Zeichen bestehen.
    – Darf nur alphanumerische Zeichen enthalten.

  13. Überprüfen Sie und wählen Sie dann Übermitteln aus.

Bearbeiten oder Löschen eines SIT-Musters

Wählen Sie die entsprechende Registerkarte für das von Ihnen verwendete Portal aus. Weitere Informationen zum Microsoft Purview-Portal finden Sie im Microsoft Purview-Portal. Weitere Informationen zum Complianceportal finden Sie im Microsoft Purview-Complianceportal.

  1. Melden Sie sich beim Microsoft Purview-Portal>information protection>ClassifiersEDM-Klassifizierer> an.

    1. Legen Sie die Umschaltfläche Für neue EDM-Erfahrung auf Aus fest.
  2. Wählen Sie EDM-Typen für vertrauliche Informationen aus.

  3. Wählen Sie die EDM SIT aus, die Sie bearbeiten möchten.

  4. Wählen Sie Edit EDM sensitive information type (Vertraulichen EDM-Informationstyp bearbeiten ) oder Delete EDM sensitive info type (Vertraulicher EDM-Informationstyp löschen ) aus dem Flyout aus.

  5. Informationen zu den Bearbeitungsverfahren finden Sie unter Verwenden des Schemas für genaue Daten und des SIT-Mustertools .

Arbeiten mit bestimmten Datentypen

Aus Leistungsgründen ist es wichtig, dass Sie Muster verwenden, die die Anzahl unnötiger Übereinstimmungen minimieren. Sie können z. B. eine SIT basierend auf dem regulären Ausdruck verwenden.

\b\w*\b

Dies würde mit jedem einzelnen Wort oder jeder Zahl in einem Dokument oder einer E-Mail übereinstimmen. Dies würde dazu führen, dass der Dienst mit Übereinstimmungen überladen wird und die Erkennung wahrer Übereinstimmungen fehlgeht. Die Verwendung genauerer Muster kann diese Situation vermeiden. Hier finden Sie einige Empfehlungen zum Identifizieren der richtigen Konfiguration für einige gängige Datentypen.

E-Mail-Adressen: E-Mail-Adressen können leicht zu identifizieren sein, aber da sie in sensiblen Inhalten so häufig vorkommen, können sie eine erhebliche Last im System verursachen, wenn sie als primäres Feld verwendet werden. Verwenden Sie E-Mail-Adder nur als sekundären Beweis. Wenn sie als primärer Beweis verwendet werden müssen, verwenden Sie beim Definieren Ihrer benutzerdefinierten SIT-Logik Elemente, in denen E-Mail-Adressen als From - oder To -Felder in E-Mails verwendet werden. Verwenden Sie außerdem Logik, um E-Mail-Adressen aus der Domäne Ihres Unternehmens auszuschließen, um die Anzahl unnötiger Zeichenfolgen zu reduzieren, die abgeglichen werden müssen.

Telefonnummern: Telefonnummern können in vielen verschiedenen Formaten vorliegen, einschließlich oder ohne Länder-/Regionspräfixe, Ortsvorwahlen und Trennzeichen. Um die falsch negativen Werte zu reduzieren und gleichzeitig die Last auf ein Minimum zu beschränken, verwenden Sie sie nur als sekundäre Elemente, schließen Sie alle wahrscheinlichen Trennzeichen wie Klammern und Bindestriche aus, und fügen Sie nur den Teil in die Tabelle vertraulicher Daten ein, der immer in der Telefonnummer vorhanden sein wird.

Namen von Personen: Verwenden Sie die Namen von Personen nicht als Primäre Elemente, wenn Sie eine SIT basierend auf einem regulären Ausdruck als Klassifizierungselement für diesen EDM-Typ verwenden, da sie schwer von gängigen Wörtern zu unterscheiden sind.

Wenn Sie ein primäres Element verwenden müssen, das mit einem bestimmten Muster (z. B. einem Projektcodenamen) schwer zu identifizieren ist, das eine große Anzahl von Übereinstimmungen generieren könnte, die verarbeitet werden sollen, stellen Sie sicher, dass Sie Schlüsselwörter in die SIT einschließen, die Sie als Klassifizierungselement für Ihren EDM-Typ verwenden. Wenn Sie beispielsweise Projektcodenamen verwenden, die auch reguläre Wörter sind, können Sie das Wort project als erforderliche zusätzliche Beweise in unmittelbarer Nähe zum auf regulären Ausdrücken basierenden Muster des Projektnamens in der SIT verwenden, die Sie als Klassifizierungselement für Ihren EDM-Typ verwenden. Alternativ können Sie eine SIT basierend auf einem regulären Wörterbuch als Klassifizierungselement für Ihre EDM SIT verwenden.

Wenn Sie versuchen, numerische Zeichenfolgen abzugleichen, geben Sie die zulässigen Zahlenbereiche an, z. B. die Anzahl der Ziffern oder die Anfangsziffern, sofern bekannt. Wenn Sie einen relativ flexiblen Zahlenbereich abgleichen müssen, können Sie Schlüsselwörter in der Sit-Basis verwenden, um die Anzahl der Übereinstimmungen zu reduzieren. Wenn Sie beispielsweise versuchen, Kontonummern abzugleichen, die aus 7 bis 11 Ziffern bestehen, fügen Sie dem SIT die Wörter account, customeracct. als erforderliche zusätzliche Beweise hinzu. Dies verringert die Wahrscheinlichkeit unnötiger Übereinstimmungen, die dazu führen können, dass die Grenzwerte von EDM-Übereinstimmungen überschritten werden, die verarbeitet werden können.

Wenn ein Feld, das Sie als primäres Element verwenden müssen, einem einfachen Muster folgt, das zu einer großen Anzahl von Übereinstimmungen führen kann, und Sie das Vorhandensein von Schlüsselwörtern nicht als zusätzlichen Beweis im SIT hinzufügen können, können Sie stattdessen eine Mindestanzahl von Vorkommen dieses Musters anfordern. Sie können z. B. eine benutzerdefinierte SIT verwenden, die auf folgende Weise definiert ist, um mindestens 29 weitere fünfstellige Zahlen zu erkennen, die eine potenzielle fünfstellige Zahl umgibt, mit der in Ihren vertraulichen Inhalten abgeglichen werden soll:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

In einigen Fällen müssen Sie möglicherweise bestimmte Konto- oder Aufzeichnungsnummern identifizieren, die aus historischen Gründen keinem standardisierten Muster folgen. Kann beispielsweise Medical Record Numbers aus vielen verschiedenen Permutationen von Buchstaben und Zahlen innerhalb derselben Organisation bestehen. Auch wenn es zunächst schwierig ist, ein Muster zu identifizieren, können Sie bei genauerer Betrachtung häufig ein Muster eingrenzen, das alle gültigen Werte beschreibt, ohne eine übermäßige Anzahl ungültiger Übereinstimmungen zu verursachen. Beispielsweise könnte erkannt werden, dass "alle MRNs mindestens sieben Zeichen lang sind, mindestens zwei numerische Ziffern enthalten, und wenn sie Buchstaben enthalten, beginnen sie mit einem Zeichen". Das Erstellen eines regulären Ausdrucks basierend auf solchen Kriterien sollte es Ihnen ermöglichen, unnötige Übereinstimmungen zu minimieren und gleichzeitig alle gewünschten Werte zu erfassen, und eine weitere Analyse könnte eine höhere Genauigkeit ermöglichen, indem separate Muster definiert werden, die verschiedene Formate beschreiben.

Manuelles Erstellen eines Regelpakets

In diesem Verfahren wird gezeigt, wie Sie eine Datei im XML-Format erstellen, die als Regelpaket (mit Unicode-Codierung) bezeichnet wird, und anschließend mithilfe von Security & Compliance-PowerShell-Cmdlets in Microsoft Purview hochladen.

Hinweis

Wenn die SIT, der Sie zuordnen, bestätigende Beweise für mehrere Wörter erkennen kann, können die sekundären Elemente, die Sie in einem manuell erstellten Regelpaket definieren, dem SIT zugeordnet werden. Beispielsweise würde der Name John Smith nicht als sekundäres Element übereinstimmen, da wir und im Inhalt separat mit dem Begriff John Smith vergleichen John würdenSmith, der in einem der Felder hochgeladen wurde, wenn dieses bestätigende Beweisfeld nicht einem SIT zugeordnet wäre, der dieses Muster erkennen kann.

Es gibt einen Grenzwert von 10 Regelpaketen in einem Microsoft 365-Mandanten. Da ein Regelpaket eine beliebige Anzahl vertraulicher Informationstypen enthalten kann, können Sie vermeiden, jedes Mal ein neues Regelpaket zu erstellen, wenn Sie mithilfe dieser Methode eine neue SIT definieren möchten, sondern stattdessen ein vorhandenes Regelpaket exportieren und Ihre vertraulichen Informationstypen dem XML-Code hinzufügen, bevor Sie es erneut hochladen.

  1. Erstellen Sie ein Regelpaket im XML-Format (mit Unicode-Codierung), ähnlich wie im folgenden Beispiel. (Sie können das Beispiel kopieren, ändern und verwenden.)

    Wenn Sie Ihr Regelpaket einrichten, stellen Sie sicher, dass Sie ordnungsgemäß auf Die durch Trennzeichen getrennten Quelltabellendatei vertraulicher Informationen undedm.xmlSchemadatei verweisen, die .csv , .tsv oder Pipe (|) durch Trennzeichen getrennt ist. Sie können das Beispiel kopieren, ändern und verwenden. In diesem XML-Beispiel müssen die folgenden Felder angepasst werden, um Ihren vertraulichen EDM-Typ zu erstellen:

    • RulePack id und ExactMatch id: Verwenden SieNew-GUID, um eine GUID zu generieren.

    • Datenspeicher: Dieses Feld gibt den zu verwendenden EDM-Nachschlage-Datenspeicher an. Sie geben den Datenquellennamen des konfigurierten EDM-Schemas an.

    • idMatch: Dieses Feld verweist auf das primäre Element für EDM.

    • Übereinstimmungen: Gibt das Feld an, das bei der genauen Suche verwendet werden soll. Sie geben den Namen eines durchsuchbaren Felds im EDM-Schema für den Datenspeicher an.

    • Klassifizierung: Dieses Feld gibt die SIT-Übereinstimmung an, die die EDM-Suche auslöst. Sie können den Namen oder die GUID einer vorhandenen integrierten oder benutzerdefinierten SIT verwenden.

    Hinweis

    Beachten Sie, dass jede Zeichenfolge, die mit dem bereitgestellten SIT übereinstimmt, hashed und mit jedem Eintrag in der Quelltabelle vertraulicher Informationen verglichen wird. Um Leistungsprobleme zu vermeiden, wenn Sie ein benutzerdefiniertes SIT-Element für das Klassifizierungselement auswählen, verwenden Sie keins, das einem großen Prozentsatz des Inhalts entspricht. Ein Beispiel, das mit "any number" oder "any five-letter word" übereinstimmt. Sie können es unterscheiden, indem Sie unterstützende Schlüsselwörter hinzufügen oder formatierungen in die Definition der benutzerdefinierten Klassifizierung SIT einschließen.

    • Übereinstimmung: Dieses Feld verweist auf zusätzliche Beweise, die in der Nähe von idMatch gefunden wurden.

    • Übereinstimmungen: Sie geben einen beliebigen Feldnamen im EDM-Schema für DataStore an.

    • Ressourcen-idRef: In diesem Abschnitt werden der Name und die Beschreibung für den vertraulichen Typ in mehreren Gebietsschemas angegeben.

      • Sie geben eine GUID für ExactMatch-ID an.
      • Name & Beschreibung: Anpassen nach Bedarf.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. Laden Sie das Regelpaket hoch, indem Sie den folgenden PowerShell-Befehl ausführen:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

Hinweis

Die Syntax der Regelpaketdatei ist die gleiche wie bei anderen Typen vertraulicher Informationen. Ausführliche Informationen zur Syntax der Regelpaketdatei und weitere Konfigurationsoptionen sowie Anweisungen zum Ändern und Löschen vertraulicher Informationstypen mithilfe von PowerShell finden Sie unter Erstellen einer benutzerdefinierten SIT mit PowerShell.

Nächster Schritt