Condividi tramite


Creare un dizionario di parole chiave

Microsoft Purview può identificare, monitorare e proteggere gli elementi sensibili. Per identificare gli elementi sensibili talvolta è necessario cercare le parole chiave, in particolare quando si identifica un contenuto generico, ad esempio comunicazioni relative al settore sanitario, o contenuti con linguaggio inappropriato o esplicito. Sebbene sia possibile creare elenchi di parole chiave quando si creano tipi di informazioni sensibili personalizzati, le dimensioni degli elenchi di parole chiave sono limitate e, se vengono create in PowerShell, è necessario modificare xml per crearli o modificarli.

Al contrario, i dizionari di parole chiave offrono una gestione più semplice delle parole chiave e su larga scala, supportando fino a 1 MB di termini (post-compressione) nel dizionario. Inoltre, i dizionari di parole chiave possono supportare qualsiasi linguaggio. Anche il limite del tenant è di 1 MB dopo la compressione. Un limite post-compressione di 1 MB significa che tutti i dizionari combinati in un tenant possono avere quasi un milione di caratteri.

Consiglio

Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione Portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.

Limiti dizionario di parole chiave

È possibile creare fino a 50 tipi di informazioni sensibili (SIT) per tenant usati nei dizionari di parole chiave. Per scoprire il numero di dizionari di parole chiave disponibili nel tenant, seguire le procedure descritte in Connettersi a PowerShell Security & Compliance per connettersi al tenant ed eseguire questo script di PowerShell:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Passaggi di base per la creazione di un dizionario di parole chiave

In genere si compilano le parole chiave per il dizionario in un file, ad esempio un .csv o un elenco di .txt. Il file del dizionario viene caricato in un sit durante la creazione o la modifica o l'importazione tramite un cmdlet di PowerShell. Alternatley, è possibile iniziare da un dizionario di parole chiave esistente o esistente. Infine, è possibile immettere manualmente le parole chiave nella finestra di dialogo Aggiungi dizionario parole chiave . Quando si crea un dizionario di parole chiave, seguire gli stessi passaggi principali:

Creare un dizionario di parole chiave usando il portale di Microsoft Purview o il portale di conformità Microsoft

Usare questi passaggi per creare o importare parole chiave per un dizionario personalizzato:

Selezionare la scheda appropriata per il portale in uso. Per altre informazioni sul portale di Microsoft Purview, vedere Portale di Microsoft Purview. Per altre informazioni sul portale di conformità, vedere Portale di conformità di Microsoft Purview.

  1. Accedere al portale di Microsoft PurviewInformation Protection>Classifiers>Tipi di informazioni sensibili.

  2. Selezionare + Crea tipo di informazioni riservate e quindi immettere un nome e una descrizione per il tipo di informazioni sensibili. Scegliere Avanti.

  3. Nella pagina Definisci modelli per questo tipo di informazioni riservate scegliere + Crea modello.

  4. Nella finestra Nuovo criterio selezionare un livello di attendibilità.

  5. Scegliere Aggiungi un elemento primario e selezionare Dizionario parole chiave.

  6. Nel riquadro a comparsa Aggiungi un dizionario parole chiave è possibile:

    1. Caricare un file dizionario in formato TXT o CSV .
    2. Scegliere tra dizionari esistenti.
    3. oppure creare un nuovo dizionario immettendo manualmente le parole chiave e assegnandole un nome.
  7. Sempre nella finestra Nuovo modello , per Prossimità carattere, specificare la distanza (in numero di caratteri) da cui devono essere rilevati gli elementi di supporto. Più vicini sono gli elementi primari e di supporto, più è probabile che il contenuto rilevato sia quello che stai cercando.

  8. Aggiungere gli elementi di supporto che si desidera usare per aumentare l'accuratezza del rilevamento di ciò che si sta cercando.

  9. Aggiungere eventuali controlli aggiuntivi e quindi scegliere Crea.

  10. Scegliere Avanti per continuare a creare il tipo di informazioni riservate. Al termine, scegliere Fine.

Creare un dizionario di parole chiave da un file con PowerShell

Spesso quando è necessario creare un dizionario di grandi dimensioni, è così che è possibile usare parole chiave da un file o un elenco esportato da un'altra origine. Nell'esempio seguente si creerà un dizionario di parole chiave contenente un elenco di malattie da visualizzare nella posta elettronica esterna. Per iniziare, è necessario connettersi a PowerShell sicurezza & conformità.

  1. Copiare le parole chiave in un file di testo e assicurarsi che ogni parola chiave si trova in una riga separata.

  2. Salvare il file di testo con codifica Unicode. Nel Blocco note passare a >Salva con> nomecodifica>Unicode.

  3. Leggere il file in una variabile eseguendo questo cmdlet:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Creare il dizionario eseguendo questo cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Uso dei dizionari di parole chiave nei tipi di informazioni riservate personalizzati e nei criteri di prevenzione della perdita dei dati

I dizionari di parole chiave possono essere usati nell'ambito dei requisiti di corrispondenza per un tipo di informazioni sensibili personalizzato oppure proprio come tipo di informazioni sensibili. Entrambi richiedono la creazione di un tipo di informazioni sensibili personalizzato. Seguire le istruzioni nell'articolo collegato per creare un tipo di informazioni sensibili. Dopo aver ottenuto il codice XML, sarà necessario l'identificatore GUID dal codice XML per usare il dizionario.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Per ottenere l'identità del dizionario, eseguire questo comando e copiare il valore della proprietà Identity:

Get-DlpKeywordDictionary -Name "Diseases"

L'output del comando avrà questo aspetto:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Incollare il valore identity nel codice XML per il tipo di informazioni riservate personalizzato come idRef. Caricare quindi il file XML. Il dizionario viene ora visualizzato nell'elenco dei tipi di informazioni sensibili ed è possibile usarlo direttamente nei criteri, specificando il tipo di parole chiave necessarie per la corrispondenza.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Nota

Microsoft 365 Information Protection supporta i set di caratteri a due-byte nelle seguenti lingue:

  • Cinese (semplificato)
  • Cinese (tradizionale)
  • Coreano
  • Giapponese

Il supporto è disponibile per i tipi di informazioni sensibili. Per altre informazioni, vedere Note sulla versione del supporto della protezione delle informazioni per i set di caratteri a due byte (anteprima).

Consiglio

Per rilevare modelli contenenti caratteri cinesi/giapponesi e caratteri a byte singolo o per rilevare modelli contenenti caratteri cinesi/giapponesi e inglesi, definire due varianti della parola chiave o dell'espressione regolare.

  • Ad esempio, per rilevare una parola chiave come "机密的document", usare due varianti della parola chiave: una con uno spazio tra il testo giapponese e quello inglese e un'altra senza spazio tra il testo giapponese e quello inglese. Quindi, le parole chiave da aggiungere nel SIT devono essere "机密的 document" e "机密的document". Analogamente, per rilevare la frase "東京オリンピック2020", devono essere usate due varianti: "東京オリンピック 2020" e "東京オリンピック2020".

Insieme ai caratteri cinese/giapponese/a byte doppio, se l'elenco di parole chiave/frasi contiene anche parole non cinesi/giapponesi (ad esempio, parole inglesi autonome), è necessario creare due dizionari/elenchi di parole chiave. Uno per le parole chiave contenenti caratteri cinese/giapponese/byte doppio e un altro per le parole inglesi.

  • Se ad esempio si desidera creare un dizionario o un elenco di parole chiave con tre frasi "Estremamente riservato", "機密性が高い" e "机密的documento", è necessario creare due elenchi di parole chiave.
    1. Estremamente riservato
    2. 機密性が高い, 机密的documento e documento 机密的

Quando si crea un'espressione regolare usando un trattino a byte doppio o un punto a byte doppio, assicurarsi di eseguire l'escape di entrambi i caratteri come si farebbe con un trattino o un punto in un'espressione regolare. Di seguito è riportata un'espressione regolare di esempio per riferimento:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

È consigliabile usare una corrispondenza di stringhe anziché una corrispondenza di parole in un elenco di parole chiave.