Crear un diccionario de palabras clave

Microsoft Purview puede identificar, supervisar y proteger los elementos confidenciales. Para identificar elementos confidenciales, a veces es necesario buscar palabras clave, especialmente al identificar contenido genérico (como comunicaciones relacionadas con la salud) o lenguaje explícito o inadecuado. Aunque puede crear listas de palabras clave al crear tipos de información confidencial personalizados, las listas de palabras clave tienen un tamaño limitado y, si las crea en PowerShell, es necesario modificar XML para crearlas o editarlas.

Por el contrario, los diccionarios de palabras clave proporcionan una administración más sencilla de las palabras clave y a una escala mucho mayor, lo que admite hasta 1 MB de términos (después de la compresión) en el diccionario. Además, los diccionarios de palabras clave pueden admitir cualquier idioma. El límite del espacio empresarial también es de 1 MB después de la compresión. Un límite posterior a la compresión de 1 MB significa que todos los diccionarios combinados en un inquilino pueden tener cerca de un millón de caracteres.

Sugerencia

Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas del portal de cumplimiento de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.

Límites del diccionario de palabras clave

Puede crear hasta 50 tipos de información confidencial (SIT) por inquilino que se usan en diccionarios de palabras clave. Para averiguar cuántos diccionarios de palabras clave tiene en el inquilino, siga los procedimientos descritos en Connect to the Security & Compliance PowerShell (Conectarse a Security & Compliance PowerShell ) para conectarse al inquilino y, a continuación, ejecute este script de PowerShell:

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Pasos básicos para crear un diccionario de palabras clave

Normalmente se compilan las palabras clave para el diccionario en un archivo, como una lista de .csv o .txt. El archivo de diccionario se carga en una SIT durante la creación o edición o importación a través de un cmdlet de PowerShell. Alternatley, puede empezar desde un diccionario de palabras clave existente o desde uno existente. Por último, puede escribir palabras clave manualmente en el cuadro de diálogo Agregar diccionario de palabras clave . Al crear un diccionario de palabras clave, sigue los mismos pasos básicos:

Creación de un diccionario de palabras clave mediante el portal de Microsoft Purview o el portal de cumplimiento de Microsoft

Siga estos pasos para crear o importar palabras clave para un diccionario personalizado:

Seleccione la pestaña adecuada para el portal que está usando. Para obtener más información sobre el portal de Microsoft Purview, consulte Portal de Microsoft Purview. Para más información sobre el portal de cumplimiento, consulte portal de cumplimiento Microsoft Purview.

  1. Inicie sesión en el portal de Microsoft PurviewInformation Protection> Tipos deinformación confidencialdeClassifiers>.

  2. Seleccione + Crear tipo de información confidencial y escriba un nombre y una descripción para el tipo de información confidencial. Elija Siguiente.

  3. En la página Definir patrones para este tipo de información confidencial , elija + Crear patrón.

  4. En la ventana Nuevo patrón , seleccione un nivel de confianza.

  5. Elija Agregar un elemento Principal y seleccione Diccionario de palabras clave.

  6. En el control flotante Agregar un diccionario de palabras clave , puede:

    1. Cargue un archivo de diccionario en formato TXT o CSV .
    2. Elija entre diccionarios existentes.
    3. o cree un nuevo diccionario escribiendo palabras clave manualmente y dándole un nombre.
  7. Todavía en la ventana Nuevo patrón , en Proximidad de caracteres, especifique la distancia (en número de caracteres) que deben detectarse los elementos auxiliares. Cuanto más se acerquen los elementos principales y auxiliares entre sí, más probable será que el contenido detectado sea lo que está buscando.

  8. Agregue los elementos auxiliares que desea usar para aumentar la precisión de la detección de lo que está buscando.

  9. Agregue comprobaciones adicionales y, a continuación, elija Crear.

  10. Elija Siguiente para seguir creando el tipo de información confidencial. Cuando haya terminado, elija Listo.

Crear un diccionario de palabras clave desde un archivo con PowerShell

A menudo, cuando necesita crear un diccionario grande, es para que pueda usar palabras clave desde un archivo o una lista exportada desde otro origen. En el ejemplo siguiente, creará un diccionario de palabras clave que contiene una lista de enfermedades que se van a mostrar en el correo electrónico externo. Para empezar, tendrá que conectarse a PowerShell de cumplimiento de seguridad &.

  1. Copie las palabras clave en un archivo de texto y asegúrese de que cada palabra clave está en una línea independiente.

  2. Guarde el archivo de texto con codificación Unicode. En el Bloc de notas, vaya a >Guardar como>codificación>Unicode.

  3. Para leer el archivo en una variable, ejecute este cmdlet:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Para crear el diccionario, ejecute este cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Usar diccionarios de palabras clave en tipos de información confidencial personalizados y directivas DLP

Los diccionarios de palabras clave se pueden usar como parte de los requisitos de coincidencia para un tipo de información confidencial personalizado, o bien como un tipo de información confidencial en sí. En ambos casos, es necesario crear un tipo de información confidencial personalizado. Siga las instrucciones en el artículo vinculado para crear un tipo de información confidencial. Una vez que tenga el XML, necesitará el identificador GUID del XML para poder usar el diccionario.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Para obtener la identidad del diccionario, ejecute este comando y copie el valor de la propiedad Identity:

Get-DlpKeywordDictionary -Name "Diseases"

El resultado del comando tiene este aspecto:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo
IsValid : True
ObjectState : Unchanged

Pegue el valor de identidad en el XML del tipo de información confidencial personalizado como idRef. A continuación, cargue el archivo XML. El diccionario ahora aparece en la lista de tipos de información confidencial y puede usarlo directamente en la directiva, especificando cuántas palabras clave son necesarias para que coincidan.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Nota:

Microsoft 365 Information Protection es compatible con los idiomas del juego de caracteres de doble byte para:

  • Chino (simplificado)
  • Chino (tradicional)
  • Coreano
  • Japonés

Este soporte está disponible para tipos de información confidencial. Para más información, consulte Notas de la versión sobre la compatibilidad de Information Protection con juegos de caracteres de doble byte (vista previa).

Sugerencia

Para detectar patrones que contengan caracteres chinos/japoneses y caracteres de un solo byte o para detectar patrones que contengan chino/japonés e inglés, defina dos variantes de la palabra clave o regex.

  • Por ejemplo, para detectar una palabra clave como "机密的document", utilice dos variantes de la palabra clave; una con un espacio entre el texto japonés y el inglés y otra sin espacio entre el texto japonés y el inglés. Por lo tanto, las palabras clave que deben agregarse en el SIT deben ser "机密的document" y "机密的document". Del mismo modo, para detectar la frase "東京オリンピック2020", se deben utilizar dos variantes: "東京オリンピック 2020" y "東京オリンピック2020"".

Junto con caracteres de byte chino, japonés o doble, si la lista de palabras clave o frases también contiene palabras no chinas o japonesas (por ejemplo, palabras en inglés independientes), debe crear dos listas de diccionarios o palabras clave. Una para palabras clave que contienen caracteres de byte chino, japonés o doble y otra para palabras en inglés.

  • Por ejemplo, si desea crear una lista o diccionario de palabras clave con tres frases "Extremadamente confidencial", "機密性が高い" y "机密的document", deberá crear dos listas de teclado.
    1. Extremadamente confidencial
    2. 機密性が高い, 机密的document y 机密的 document

Al crear una regex que utilice un guión de doble byte o un punto de doble byte, asegúrese de escapar ambos caracteres como se escaparía un guión o un punto en una regex. Aquí hay un ejemplo de regex como referencia:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Se recomienda utilizar una coincidencia de cadenas en lugar de una coincidencia de palabras en una lista de palabras clave.