Condividi tramite


Creare un pacchetto di regole/tipo di informazione sensibile con corrispondenza dei dati esatta

Consiglio

Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione del portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.

Si applica a

È possibile creare una corrispondenza esatta dei dati (EDM) SIT (SIT) usando lo strumento Use the Exact Data Match schema and SIT pattern nel portale di conformità di Microsoft Purview oppure è possibile creare manualmente il pacchetto di regole come file XML. È anche possibile combinare i due metodi usando un metodo per creare lo schema e successivamente usando l'altro metodo per modificarlo.

Se non si ha familiarità con SITS basato su EDM o la relativa implementazione, è necessario acquisire familiarità con:

Prerequisiti

Seguire questa procedura in questi articoli:

  1. Esportare i dati di origine per i tipi di informazioni sensibili basati sulla corrispondenza dei dati esatti
  2. Creazione dello schema per i tipi di informazioni sensibili basati sulla corrispondenza esatta dei dati
  3. Eseguire l'hashing e caricare la tabella di origine delle informazioni sensibili per i tipi di informazioni sensibili corrispondenti ai dati esatti
  • Sia che si stia creando un SIT EDM usando lo strumento o il file XML del pacchetto di regole tramite PowerShell, è necessario disporre delle autorizzazioni Amministratore globale o Amministratore conformità per creare, testare e distribuire un sit personalizzato tramite l'interfaccia utente. Vedere Informazioni sui ruoli di amministratore in Office 365.

Importante

Microsoft consiglia di usare i ruoli con il minor numero di autorizzazioni. Ciò consente di migliorare la sicurezza per l'organizzazione. Amministratore globale è un ruolo con privilegi elevati che deve essere usato solo negli scenari in cui non è possibile usare un ruolo con privilegi inferiori.

  • Identificare uno dei SIT predefiniti da usare come elementi primari SIT.
    • Se nessuno dei SIT predefiniti corrisponderà ai dati nella colonna selezionata, sarà necessario creare un SIT personalizzato.
    • Se è stata selezionata l'opzione Delimitatori ignorati per la colonna dell'elemento primario nello schema, assicurarsi che il sit personalizzato creato corrisponda ai dati con e senza i delimitatori selezionati.
    • Se si usa un SIT predefinito, assicurarsi che rilevi esattamente le stringhe che si desidera selezionare e non includa caratteri circostanti o escluda qualsiasi parte valida della stringa archiviata nella tabella delle informazioni riservate.

Vedere Definizioni di entità del tipo di informazioni riservate e Creare tipi di informazioni sensibili personalizzati.

Usare lo schema Exact Data Match e lo strumento modello SIT

È possibile usare questo strumento per creare i file SIT per semplificare il processo.

Un SIT EDM è composto da uno o più modelli. Ogni modello descrive una combinazione di campi dello schema che verranno usati per identificare il contenuto sensibile in un documento o in un messaggio di posta elettronica (evidenza).

Selezionare la scheda appropriata per il portale in uso. Per altre informazioni sul portale di Microsoft Purview, vedere Portale di Microsoft Purview. Per altre informazioni sul portale di conformità, vedere Portale di conformità di Microsoft Purview.

  1. Accedere aiclassificatori EDM deiclassificatori> EDM del portale> di Microsoft PurviewInformation Protection>.

    1. Impostare l'interruttore Nuova esperienza EDM su Disattivato
  2. Scegliere Tipi di informazioni sensibili EDM e Crea tipo di informazioni sensibili EDM per aprire lo strumento di configurazione Tipo di informazioni sensibili.

  3. Selezionare Choose an existing EDM schema (Scegliere uno schema EDM esistente ) e selezionare lo schema creato in Creare lo schema per i tipi di informazioni sensibili esatti basati sulla corrispondenza dei dati. Selezionare Aggiungi.

  4. Scegliere Avanti e Creare modello.

  5. Selezionare il livello di attendibilità e l'elemento Primario. Per altre informazioni sui livelli di attendibilità, vedere Informazioni sui tipi di informazioni riservate.

  6. Scegliere il tipo di informazioni sensibili dell'elemento primario a cui associarlo per definire il testo del documento che verrà confrontato con tutti i valori nel campo dell'elemento primario. Per altre informazioni sui tipi di informazioni sensibili disponibili, vedere Definizioni di entità SIT .

    Importante

    Selezionare un sit che corrisponda al formato del contenuto che si vuole trovare. La selezione di un sit che corrisponde a contenuto non necessario, ad esempio uno che corrisponde a tutte le stringhe di testo o a tutti i numeri, può causare un carico eccessivo nel sistema, il che può comportare il rilevamento di informazioni riservate.

  7. Selezionare le opzioni Elementi di supporto e corrispondenza.

  8. Scegliere Fine.

  9. Scegliere Crea modello se si desidera creare modelli aggiuntivi per il sit EDM.

  10. Seleziona Avanti.

  11. Scegliere il livello di attendibilità consigliato e la prossimità carattere desiderati. Questo sarà il valore predefinito per l'intero SIT EDM. Per informazioni sulla prossimità dei caratteri, vedere Informazioni sulla prossimità. Seleziona Avanti.

  12. Scegliere Avanti e compilare i campi Nome e Descrizione per gli amministratori.

    Durante la creazione del file di schema, le intestazioni di colonna (campi dati) devono rispettare i requisiti di denominazione seguenti:
    - Deve iniziare con una lettera e deve essere costituito da almeno tre caratteri alfanumerici.
    - Deve includere solo caratteri alfanumerici.

  13. Rivedere e scegliere Invia.

Modificare o eliminare un modello SIT

Selezionare la scheda appropriata per il portale in uso. Per altre informazioni sul portale di Microsoft Purview, vedere Portale di Microsoft Purview. Per altre informazioni sul portale di conformità, vedere Portale di conformità di Microsoft Purview.

  1. Accedere aiclassificatori EDM deiclassificatori> EDM del portale> di Microsoft PurviewInformation Protection>.

    1. Impostare l'interruttore Nuova esperienza EDM su Disattivato
  2. Scegliere tipi di informazioni sensibili EDM.

  3. Selezionare il sit EDM da modificare.

  4. Scegliere Modifica tipo di informazioni sensibili EDM o Elimina tipo di informazioni sensibili EDM dal riquadro a comparsa.

  5. Vedere Usare lo schema Exact Data Match e lo strumento modello SIT per le procedure di modifica.

Uso di tipi specifici di dati

Per motivi di prestazioni, è fondamentale usare modelli che riducono al minimo il numero di corrispondenze non necessarie. Ad esempio, è possibile usare un sit basato sull'espressione regolare.

\b\w*\b

Corrisponde a ogni singola parola o numero in qualsiasi documento o messaggio di posta elettronica. Ciò causerebbe l'overload del servizio con corrispondenze e il mancato rilevamento delle corrispondenze vere. L'uso di modelli più precisi può evitare questa situazione. Ecco alcuni consigli per identificare la configurazione corretta per alcuni tipi comuni di dati.

Indirizzi di posta elettronica: gli indirizzi di posta elettronica possono essere facili da identificare, ma poiché sono così comuni nei contenuti sensibili, potrebbero causare un carico significativo nel sistema se usati come campo primario. Usare i componenti aggiuntivi di posta elettronica solo come prova secondaria. Se devono essere usati come prova primaria, quando si definisce la logica di utilizzo sit personalizzata per escludere gli elementi in cui gli indirizzi di posta elettronica vengono usati come From o To campi nei messaggi di posta elettronica. Usare anche la logica per escludere gli indirizzi di posta elettronica dal dominio dell'azienda per ridurre il numero di stringhe non necessarie che devono essere abbinate.

Numeri di telefono: i numeri di telefono possono essere disponibili in molti formati diversi, inclusi o esclusi prefissi, codici di area geografica e separatori del paese o dell'area geografica. Per ridurre i falsi negativi mantenendo al minimo il carico, usarli solo come elementi secondari, escludere tutti i separatori probabili, come parentesi e trattini e includere solo nella tabella dati sensibili la parte che sarà sempre presente nel numero di telefono.

Nomi degli utenti: non usare i nomi degli utenti come elementi primari se si usa un'espressione SIT basata su un'espressione regolare come elemento di classificazione per questo tipo EDM, perché sono difficili da distinguere dalle parole comuni.

Se è necessario usare un elemento primario difficile da identificare con un modello specifico (ad esempio un nome di codice del progetto), che potrebbe generare un volume elevato di corrispondenze da elaborare, assicurarsi di includere parole chiave nel sit usato come elemento di classificazione per il tipo EDM. Ad esempio, se si usano nomi di codice di progetto che sono anche parole normali, è possibile usare la parola project come evidenza aggiuntiva necessaria in prossimità del modello basato su espressioni regolari del nome del progetto nel sit usato come elemento di classificazione per il tipo EDM. In alternativa, è possibile prendere in considerazione l'uso di un sit basato su un dizionario normale come elemento di classificazione per il sit EDM.

Quando si tenta di trovare una corrispondenza con stringhe numeriche, specificare gli intervalli di numeri consentiti, ad esempio il numero di cifre o le cifre iniziali, se noto. Se è necessario trovare una corrispondenza con un intervallo di numeri relativamente flessibile, è possibile usare parole chiave nel sit di base per ridurre il numero di corrispondenze. Ad esempio, se si tenta di trovare la corrispondenza con i numeri di conto costituiti da 7-11 cifre, aggiungere le parole account, customer, acct. al SIT come prova aggiuntiva necessaria. In questo modo si riduce la probabilità di corrispondenze non necessarie che potrebbero comportare il superamento dei limiti delle corrispondenze EDM che possono essere elaborate.

Se un campo che è necessario usare come elemento primario segue un modello semplice che potrebbe generare un numero elevato di corrispondenze e non è possibile aggiungere la presenza di parole chiave come ulteriore evidenza in SIT, è invece possibile richiedere un numero minimo di occorrenze di tale modello. Ad esempio, è possibile usare un sit personalizzato definito nel modo seguente per rilevare almeno altri 29 numeri a cinque cifre che circondano un potenziale numero di cinque cifre da confrontare nel contenuto sensibile:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

In alcuni casi, potrebbe essere necessario identificare determinati numeri di identificazione di account o record che per motivi cronologici non seguono un modello standardizzato. Ad esempio, Medical Record Numbers può essere composto da molte diverse permutazioni di lettere e numeri all'interno della stessa organizzazione. Anche se all'inizio potrebbe essere difficile identificare un modello, un'ispezione più approfondita consente spesso di restringere un modello che descrive tutti i valori validi senza causare un numero eccessivo di corrispondenze non valide. Ad esempio, potrebbe essere rilevato che "tutti i nomi MRN hanno almeno sette caratteri di lunghezza, hanno almeno due cifre numeriche e, se contengono lettere, iniziano con uno". La creazione di un'espressione regolare basata su tali criteri dovrebbe consentire di ridurre al minimo le corrispondenze non necessarie durante l'acquisizione di tutti i valori desiderati e un'ulteriore analisi potrebbe consentire una maggiore precisione definendo modelli separati che descrivono formati diversi.

Creare manualmente un pacchetto di regole

Questa procedura illustra come creare un file in formato XML denominato pacchetto di regole (con codifica Unicode) e quindi caricarlo in Microsoft Purview usando i cmdlet di PowerShell Security & Compliance.

Nota

Se l'elemento SIT a cui si esegue il mapping è in grado di rilevare prove corroborative a più parole, gli elementi secondari definiti in un pacchetto di regole creato manualmente possono essere mappati a SIT. Ad esempio, il nome John Smith non corrisponderebbe come elemento secondario perché il contenuto viene confrontato John e Smith trovato separatamente con il termine John Smith caricato in uno dei campi, se tale campo di evidenza corroborativa non è stato mappato a un sit in grado di rilevare tale modello.

È previsto un limite di 10 pacchetti di regole in un tenant di Microsoft 365. Poiché un pacchetto di regole può contenere un numero arbitrario di tipi di informazioni riservate, è possibile evitare di creare un nuovo pacchetto di regole ogni volta che si vuole definire un nuovo sit usando questo metodo, esportare invece un pacchetto di regole esistente e aggiungere i tipi di informazioni sensibili al codice XML prima di caricarlo nuovamente.

  1. Creare un pacchetto di regole nel formato .xml (con codifica Unicode), come illustrato nell'esempio seguente. (È possibile copiare, modificare e usare l'esempio.)

    Quando si configura il pacchetto di regole, assicurarsi di fare riferimento correttamente al file di tabella di origine delle informazioni sensibili delimitato .csv, tsv o pipe (|) e edm.xml file di schema. È possibile copiare, modificare e usare l'esempio. In questo xml di esempio è necessario personalizzare i campi seguenti per creare il tipo sensibile EDM:

    • RulePack id & ExactMatch id: usare New-GUID per generare un GUID.

    • Datastore: questo campo specifica l'archivio dati di ricerca EDM da usare. Specificare il nome dell'origine dati dello schema EDM configurato.

    • idMatch: questo campo punta all'elemento primario per EDM.

    • Corrispondenze: specifica il campo da utilizzare nella ricerca esatta. È possibile specificare il nome campo ricercabile nello schema EDM per DataStore.

    • Classificazione: questo campo specifica la corrispondenza SIT che attiva la ricerca EDM. È possibile usare il nome o il GUID di un sit predefinito o personalizzato esistente.

    Nota

    Tenere presente che tutte le stringhe che corrispondono al sit fornito verranno con hash e confrontate con ogni voce nella tabella dell'origine delle informazioni riservate. Per evitare problemi di prestazioni se si sceglie un sit personalizzato per l'elemento di classificazione, non usare uno che corrisponda a una grande percentuale di contenuto. Ad esempio uno che corrisponde a "qualsiasi numero" o "qualsiasi parola di cinque lettere". È possibile distinguerlo aggiungendo parole chiave di supporto o includendo la formattazione nella definizione della classificazione personalizzata SIT.

    • Corrispondenza: questo campo punta a prove aggiuntive trovate in prossimità di idMatch.

    • Corrispondenze: specificare qualsiasi nome di campo nello schema EDM per DataStore.

    • Id risorsaRef: Questa sezione specifica il nome e la descrizione per il tipo sensibile in più impostazioni locali

      • Specificare il GUID per l'ID ExactMatch.
      • Nome & descrizione: personalizzare in base alle esigenze.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. Caricare il pacchetto della regola eseguendo il comando di PowerShell seguente:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

Nota

La sintassi del file del pacchetto delle regole è la stessa di per altri tipi di informazioni riservate. Per informazioni dettagliate sulla sintassi del file del pacchetto di regole e per opzioni di configurazione aggiuntive e per istruzioni sulla modifica ed eliminazione di tipi di informazioni sensibili tramite PowerShell, creare un sit personalizzato con PowerShell.

Passaggio successivo