Partilhar via


Criar um dicionário de palavras-chave

O Microsoft Purview pode identificar, monitorizar e proteger os seus itens confidenciais. Às vezes, a identificação de itens confidenciais requer a procura de palavras-chave, principalmente ao identificar conteúdos genéricos (como comunicações relacionadas à assistência médica), ou linguagem inadequada ou explícita. Embora possa criar listas de palavra-chave quando cria tipos de informações confidenciais personalizados, palavra-chave listas têm um tamanho limitado e, se estiver a criá-las no PowerShell, é necessário modificar o XML para os criar ou editar.

Por outro lado, palavra-chave dicionários fornecem uma gestão mais simples de palavras-chave e a uma escala muito maior, suportando até 1 MB de termos (pós-compressão) no dicionário. Além disso, palavra-chave dicionários podem suportar qualquer idioma. O limite do locatário também é 1 MB após a compactação. Um limite de pós-compressão de 1 MB significa que todos os dicionários combinados num inquilino podem ter cerca de um milhão de carateres.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de testes do portal de conformidade do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Limites do dicionário de palavras-chave

Pode criar até 50 tipos de informações confidenciais (SITs) por inquilino que foram utilizados em dicionários palavra-chave. Para saber quantos palavra-chave dicionários tem no seu inquilino, siga os procedimentos em Ligar ao PowerShell de Conformidade do & de Segurança para ligar ao seu inquilino e, em seguida, execute este script do PowerShell:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Etapas básicas para criar um dicionário de palavra-chave

Normalmente, compila as palavras-chave do dicionário num ficheiro, como uma lista de .csv ou .txt. Carregue o ficheiro de dicionário para um SIT durante a criação ou edição ou importe-o através de um cmdlet do PowerShell. Alternatley, pode começar a partir de um dicionário existente ou a partir de um dicionário de Palavras-chave existente. Por último, pode introduzir manualmente palavras-chave na caixa de diálogo Adicionar palavra-chave dicionário. Quando cria um dicionário palavra-chave, segue os mesmos passos principais:

Criar um dicionário palavra-chave com o portal do Microsoft Purview ou o portal de Conformidade da Microsoft

Utilize estes passos para criar ou importar palavras-chave para um dicionário personalizado:

Selecione a guia apropriada para o portal que você está usando. Para saber mais sobre o portal do Microsoft Purview, consulte o portal do Microsoft Purview. Para saber mais sobre o Portal de conformidade, consulte Portal de conformidade do Microsoft Purview.

  1. Inicie sessão no portal do Microsoft PurviewProteção de Informações>Classifiers>Tipos de informações confidenciais.

  2. Selecione + Criar tipo de informações confidenciais e, em seguida, introduza um Nome e uma Descrição para o seu tipo de informações confidenciais. Escolha Avançar.

  3. Na página Definir padrões para este tipo de informações confidenciais , selecione + Criar padrão.

  4. Na janela Novo padrão , selecione um Nível de confiança.

  5. Selecione Adicionar um elemento Primário e selecione Dicionário de palavras-chave.

  6. Na lista de opções Adicionar um dicionário palavra-chave, pode:

    1. Carregue um ficheiro de dicionário no formato TXT ou CSV .
    2. Escolha a partir de dicionários existentes.
    3. ou crie um novo dicionário ao introduzir manualmente palavras-chave e atribuir-lhe um nome.
  7. Ainda na janela Novo Padrão , para Proximidade de carateres, especifique a distância (em número de carateres) que todos os elementos de suporte têm de ser detetados. Quanto mais próximos forem os elementos principais e de suporte uns dos outros, maior é a probabilidade de o conteúdo detetado ser o que procura.

  8. Adicione os elementos de Suporte que pretende utilizar para aumentar a precisão da deteção do que procura.

  9. Adicione quaisquer Verificações adicionais e, em seguida, selecione Criar.

  10. Selecione Seguinte para continuar a criar o seu tipo de informações confidenciais. Quando tiver terminado, selecione Concluído.

Criar um dicionário de palavras-chave de um arquivo usando o Power Shell

Muitas vezes, quando precisa de criar um dicionário grande, é para que possa utilizar palavras-chave de um ficheiro ou de uma lista exportada de outra origem. No exemplo que se segue, irá criar um dicionário palavra-chave que contém uma lista de doenças a filtrar no e-mail externo. Para começar, terá de se ligar ao PowerShell de Conformidade do & de Segurança.

  1. Copie as palavras-chave para um ficheiro de texto e certifique-se de que cada palavra-chave está numa linha separada.

  2. Guarde o ficheiro de texto com a codificação Unicode. No Bloco de Notas, navegue para >Guardar Como>Codificação>Unicode.

  3. Leia o arquivo em uma variável executando este cmdlet:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Crie o dicionário executando este cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Usar dicionários de palavras-chave em tipos de informação confidencial personalizados e as políticas DLP

Os dicionários de palavras-chave podem ser usados como parte dos requisitos de correspondência para um tipo de informação confidencial personalizado ou como um tipo de informação confidencial próprio. Ambos exigem que você crie um tipo de informação confidencial personalizado. Siga as instruções no artigo vinculado para criar um tipo de informação confidencial. Assim que tiver o XML, precisará do identificador GUID do XML para utilizar o dicionário.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Para obter a identidade do seu dicionário, execute este comando e copie o valor da propriedade Identity:

Get-DlpKeywordDictionary -Name "Diseases"

A saída do comando será parecida com o seguinte:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Cole o valor de identidade no XML para o seu tipo de informações confidenciais personalizado como idRef. Em seguida, carregue o ficheiro XML. O dicionário aparece agora na sua lista de tipos de informações confidenciais e pode utilizá-lo diretamente na sua política, especificando quantas palavras-chave são necessárias para corresponder.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Observação

Proteção de Informações do Microsoft 365 dá suporte a idiomas de conjunto de caracteres de dois bytes para:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, confira Suporte à proteção de informações para notas de versão de conjuntos de caracteres de byte duplo (visualização).

Dica

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

  • Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Juntamente com carateres de bytes duplos/chinês/japonês, se a lista de palavras-chave/expressões também contiver palavras não chinesas/japonesas (por exemplo, palavras em inglês autónomas), deve criar dois dicionários/listas de palavra-chave. Uma para palavras-chave que contêm carateres de bytes chineses/japoneses/duplos e outra para palavras em inglês.

  • Por exemplo, se você deseja criar um dicionário de palavras-chave/lista com três frases "Altamente confidencial", "機密性が高い" e "documento机密的", então você deve criar duas listas de palavras-chave.
    1. Altamente confidencial
    2. 機密性が高い, documento机密的 e documento机密的

Ao criar um regex usando um hífen de byte duplo ou um ponto de byte duplo, certifique-se de escapar ambos os caracteres, como um escape de um hífen ou ponto em um regex. Aqui está um exemplo de regex para referência:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

É recomendável usar uma correspondência de cadeia de caracteres em vez de uma correspondência de palavras-chave em uma lista de palavras-chave.