Criar um dicionário de palavras-chave

A DLP (Prevenção Contra Perda de Dados) do Microsoft Purview pode identificar, monitorar e proteger seus itens confidenciais. Às vezes, a identificação de itens confidenciais requer a procura de palavras-chave, principalmente ao identificar conteúdos genéricos (como comunicações relacionadas à assistência médica), ou linguagem inadequada ou explícita. Embora seja possível criar listas de palavras-chave em tipos de informações confidenciais, as listas de palavras-chave têm tamanho limitado e exigem a modificação do XML para criá-las ou editá-las. Por outro lado, palavra-chave dicionários fornecem um gerenciamento mais simples de palavras-chave e em uma escala muito maior, dando suporte a até 1 MB de termos (pós-compactação) no dicionário. Além disso, palavra-chave dicionários podem dar suporte a qualquer idioma. O limite do locatário também é 1 MB após a compactação. Um limite pós-compactação de 1 MB significa que todos os dicionários combinados em um locatário podem ter cerca de um milhão de caracteres.

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Limites do dicionário de palavras-chave

Você pode criar até 50 tipos de informações confidenciais por locatário baseados em dicionários palavra-chave. Para descobrir quantos dicionários palavra-chave você tem em seu locatário, siga os procedimentos em Conectar-se ao PowerShell de Conformidade de Segurança & para se conectar ao locatário e execute este script do PowerShell:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Etapas básicas para criar um dicionário de palavra-chave

As palavras-chave do dicionário podem vir de várias fontes, mais comumente de um arquivo (como uma lista de .csv ou .txt) importado no serviço ou por meio de um cmdlet do PowerShell, de uma lista que você insere diretamente no cmdlet do PowerShell ou de um dicionário existente. Ao criar um dicionário palavra-chave, siga as mesmas etapas principais:

  1. Use o *portal de conformidade do Microsoft Purview ou conecte-se ao portal de conformidade do Microsoft Purview PowerShell.

  2. Defina ou carregue suas palavras-chave da fonte pretendida. O assistente e o cmdlet aceitam uma lista separada por vírgulas de palavras-chave para criar um dicionário de palavras-chave personalizado, de modo que esta etapa irá variar um pouco dependendo da origem das palavras-chave. Uma vez carregadas, elas são codificadas e convertidas em uma matriz bytes antes de serem importadas.

  3. Crie seu dicionário. Escolha um nome e uma descrição, e crie seu dicionário.

Criar um dicionário palavra-chave usando o portal de conformidade do Microsoft Purview

Use as etapas a seguir para criar e importar palavras-chave para um dicionário personalizado:

  1. Conecte-se ao portal de conformidade do Microsoft Purview.

  2. Navegue até Classificações > de Dados Classificadores > Tipos de informações confidenciais.

  3. Selecione Criar e, em seguida, insira um Nome e Descrição para seu tipo de informações confidenciais. Escolha Avançar.

  4. Na página Definir padrões para este tipo de informação confidencial , escolha Criar padrão.

  5. Na janela Novo padrão , selecione um nível de confiança.

  6. Escolha Adicionar um elemento Primário e selecione Lista de opções de dicionário de palavras-chave .

  7. Ainda na janela Novo Padrão , para proximidade de caracteres, especifique o quão longe (em número de caracteres) qualquer elemento de suporte deve ser detectado. Quanto mais próximos os elementos primários e de suporte estiverem uns com os outros, maior a probabilidade de o conteúdo detectado ser o que você está procurando.

  8. Adicione os elementos de suporte que você deseja usar para aumentar a precisão de detectar o que você está procurando.

  9. Adicione quaisquer verificações adicionais e escolha Criar.

  10. Escolha Avançar para continuar criando seu tipo de informações confidenciais. Quando terminar, escolha Concluído.

Criar um dicionário de palavras-chave de um arquivo usando o Power Shell

Geralmente, quando você precisa criar um dicionário grande, é para que você possa usar palavras-chave de um arquivo ou de uma lista exportada de alguma outra fonte. No exemplo a seguir, você criará um dicionário palavra-chave que contém uma lista de doenças a serem exibidas em email externo. Para começar, você precisará se conectar ao PowerShell de Conformidade de Segurança&.

  1. Copie suas palavras-chave em um arquivo de texto e verifique se cada palavra-chave está em uma linha separada.

  2. Salve o arquivo de texto com codificação Unicode. No Bloco de Notas, navegue até >Salvar Como>Codificar>Unicode.

  3. Leia o arquivo em uma variável executando este cmdlet:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Crie o dicionário executando este cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Usar dicionários de palavras-chave em tipos de informação confidencial personalizados e as políticas DLP

Os dicionários de palavras-chave podem ser usados como parte dos requisitos de correspondência para um tipo de informação confidencial personalizado ou como um tipo de informação confidencial próprio. Ambos exigem que você crie um tipo de informação confidencial personalizado. Siga as instruções no artigo vinculado para criar um tipo de informação confidencial. Depois de ter o XML, você precisará do identificador GUID do XML para usar o dicionário.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Para obter a identidade do seu dicionário, execute este comando e copie o valor da propriedade Identity:

Get-DlpKeywordDictionary -Name "Diseases"

A saída do comando será parecida com o seguinte:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Cole o valor de identidade no XML para seu tipo de informação confidencial personalizado como o idRef. Em seguida, carregue o arquivo XML. Seu dicionário agora aparece em sua lista de tipos de informações confidenciais e você pode usá-lo diretamente em sua política, especificando quantas palavras-chave são necessárias para corresponder.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Observação

Proteção de Informações do Microsoft 365 dá suporte a idiomas de conjunto de caracteres de dois bytes para:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, confira Suporte à proteção de informações para notas de versão de conjuntos de caracteres de byte duplo (visualização).

Dica

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

  • Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Junto com caracteres de bytes chinês/japonês/duplo, se a lista de palavras-chave/frases também contiver palavras não chinesas/japonesas também (por exemplo, palavras em inglês autônomas), você deverá criar duas listas de dicionários/palavra-chave. Uma para palavras-chave que contêm caracteres de bytes chinês/japonês/duplo e outra para palavras em inglês.

  • Por exemplo, se você deseja criar um dicionário de palavras-chave/lista com três frases "Altamente confidencial", "機密性が高い" e "documento机密的", então você deve criar duas listas de palavras-chave.
    1. Altamente confidencial
    2. 機密性が高い, documento机密的 e documento机密的

Ao criar um regex usando um hífen de byte duplo ou um ponto de byte duplo, certifique-se de escapar ambos os caracteres, como um escape de um hífen ou ponto em um regex. Aqui está um exemplo de regex para referência:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

É recomendável usar uma correspondência de cadeia de caracteres em vez de uma correspondência de palavras-chave em uma lista de palavras-chave.