Crear un paquete de reglas o tipo de información confidencial de coincidencia exacta de datos

Sugerencia

Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas del portal de cumplimiento de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.

Se aplica a

Puede crear una coincidencia exacta de datos (EDM) SIT (SIT) mediante la herramienta Usar el esquema de coincidencia exacta de datos y el patrón SIT en el Portal de cumplimiento de Microsoft Purview, o bien puede crear el paquete de reglas manualmente como un archivo XML. También puede combinar los dos métodos mediante un método para crear el esquema y, posteriormente, con el otro método para editarlo.

Si no está familiarizado con SITS basado en EDM o su implementación, debe familiarizarse con:

Requisitos previos

Siga los pasos descritos en estos artículos:

  1. Exportación de datos de origen para tipos de información confidencial basados en coincidencias exactas de datos
  2. Crear el esquema para tipos de información confidencial basados en las coincidencias exactas de datos
  3. Aplicar hash y cargar la tabla de origen de información confidencial para los datos exactos que coincidan con los tipos de información confidencial
  • Tanto si va a crear una SIT de EDM mediante la herramienta o el archivo XML del paquete de reglas a través de PowerShell, debe tener permisos de administrador global o administrador de cumplimiento para crear, probar e implementar una SIT personalizada a través de la interfaz de usuario. Consulte Acerca de los roles de administrador en Office 365.
  • Identifique uno de los SIT integrados que se van a usar como elementos primarios SIT.
    • Si ninguno de los SIT integrados coincidirá con los datos de la columna seleccionada, tendrá que crear una SIT personalizada que lo haga.
    • Si seleccionó la opción Delimitadores omitidos para la columna de elemento principal en el esquema, asegúrese de que la SIT personalizada que cree coincidirá con los datos con y sin los delimitadores seleccionados.
    • Si usa un SIT integrado, asegúrese de que detectará exactamente las cadenas que desea seleccionar y no incluirá ningún carácter circundante ni excluirá ninguna parte válida de la cadena tal como se almacena en la tabla de información confidencial.

Consulte Definiciones de entidades de tipo de información confidencial y Creación de tipos de información confidencial personalizados.

Uso del esquema de coincidencia de datos exactos y la herramienta de patrón SIT

Puede usar esta herramienta para crear los archivos SIT con el fin de simplificar el proceso.

Una SIT de EDM se compone de uno o varios patrones. Cada patrón describe una combinación de campos del esquema que se usará para identificar contenido confidencial en un documento o correo electrónico (evidencia).

Seleccione la pestaña adecuada para el portal que está usando. Para obtener más información sobre el portal de Microsoft Purview, consulte Portal de Microsoft Purview. Para más información sobre el portal de cumplimiento, consulte portal de cumplimiento Microsoft Purview.

  1. Inicie sesión en el portal > de Microsoft PurviewInformation Protection>Clasificadores de EDM deClassifiers>.

    1. Establezca el botón de alternancia Nueva experiencia de EDM en Desactivado
  2. Elija Tipos de información confidencial de EDM y Crear tipo de información confidencial de EDM para abrir la herramienta de configuración Tipo de información confidencial.

  3. Seleccione Elegir un esquema EDM existente y elija el esquema que creó en Crear el esquema para los tipos de información confidencial basados en coincidencias de datos exactas. Seleccione Agregar.

  4. Elija Siguiente y seleccione Crear patrón.

  5. Elija el nivel de confianza y el elemento Principal. Para obtener más información sobre los niveles de confianza, consulte Información sobre los tipos de información confidencial.

  6. Elija el tipo de información confidencial del elemento Principal con el que asociarlo para definir con qué texto del documento se comparará con todos los valores del campo del elemento principal. Consulte Definiciones de entidad de SIT para obtener más información sobre los tipos de información confidencial disponibles.

    Importante

    Seleccione una SIT que coincida estrechamente con el formato del contenido que desea encontrar. Seleccionar una SIT que coincida con contenido innecesario, como una que coincida con todas las cadenas de texto o todos los números, puede provocar una carga excesiva en el sistema, lo que puede dar lugar a que la información confidencial no se detecte.

  7. Seleccione los elementos auxiliares y las opciones de coincidencia.

  8. Seleccione Listo.

  9. Elija Crear patrón si desea crear patrones adicionales para EDM SIT.

  10. Seleccione Siguiente.

  11. Elija el nivel de confianza recomendado y la proximidad de caracteres deseados. Este será el valor predeterminado para todo el sit de EDM. (Para obtener información sobre la proximidad de caracteres, vea Descripción de la proximidad). Seleccione Siguiente.

  12. Elija Siguiente y rellene con un Nombre y una Descripción para los administradores.

    Al crear el archivo de esquema, los encabezados de columna (campos de datos) deben cumplir los siguientes requisitos de nomenclatura:
    - Debe comenzar con una letra y debe constar de al menos tres caracteres alfanuméricos.
    - Solo debe incluir caracteres alfanuméricos.

  13. Revise y elija Enviar.

Edición o eliminación de un patrón SIT

Seleccione la pestaña adecuada para el portal que está usando. Para obtener más información sobre el portal de Microsoft Purview, consulte Portal de Microsoft Purview. Para más información sobre el portal de cumplimiento, consulte portal de cumplimiento Microsoft Purview.

  1. Inicie sesión en el portal > de Microsoft PurviewInformation Protection>Clasificadores de EDM deClassifiers>.

    1. Establezca el botón de alternancia Nueva experiencia de EDM en Desactivado
  2. Elija tipos de información confidencial de EDM.

  3. Elija el SIT de EDM que desea editar.

  4. Elija Edit EDM sensitive info type (Editar tipo de información confidencial de EDM ) o Delete EDM sensitive info type (Eliminar tipo de información confidencial de EDM ) en el control flotante.

  5. Consulte Usar el esquema de coincidencia de datos exactos y la herramienta de patrón SIT para los procedimientos de edición.

Trabajar con tipos de datos específicos

Por motivos de rendimiento, es fundamental usar patrones que minimicen el número de coincidencias innecesarias. Por ejemplo, puede usar una SIT basada en la expresión regular.

\b\w*\b

Esto coincidiría con cada palabra o número individual en cualquier documento o correo electrónico. Esto provocaría que el servicio se sobrecargara con coincidencias y que se perdiese la detección de coincidencias verdaderas. El uso de patrones más precisos puede evitar esta situación. Estas son algunas recomendaciones para identificar la configuración adecuada para algunos tipos comunes de datos.

Email direcciones: las direcciones de Email pueden ser fáciles de identificar, pero como son tan comunes en el contenido confidencial, pueden provocar una carga significativa en el sistema si se usan como campo principal. Use los complementos de correo electrónico solo como evidencia secundaria. Si deben usarse como evidencia principal, al definir la sit personalizada, use la lógica para excluir los elementos en los que las direcciones de correo electrónico se usan como From campos o To en los correos electrónicos. Use también la lógica para excluir las direcciones de correo electrónico del dominio de su empresa para reducir el número de cadenas innecesarias que deben coincidir.

Números de teléfono: los números de teléfono pueden tener muchos formatos diferentes, incluidos o excluidos prefijos de país o región, códigos de área y separadores. Para reducir los falsos negativos mientras se mantiene la carga al mínimo, úselos solo como elementos secundarios, excluya todos los separadores probables, como paréntesis y guiones, y solo incluya en la tabla de datos confidenciales la parte que siempre estará presente en el número de teléfono.

nombres de Personas: no use los nombres de personas como elementos principales si usa una SIT basada en una expresión regular como elemento de clasificación para este tipo EDM, ya que son difíciles de distinguir de palabras comunes.

Si debe usar un elemento principal que sea difícil de identificar con un patrón específico (por ejemplo, un nombre de código de proyecto), que podría generar un gran volumen de coincidencias que se procesarán, asegúrese de incluir palabras clave en sit que use como elemento de clasificación para el tipo EDM. Por ejemplo, si usa nombres de código de proyecto que también son palabras regulares, puede usar la palabra project como evidencia adicional necesaria cerca del patrón basado en expresiones regulares del nombre del proyecto en sit que use como elemento de clasificación para el tipo EDM. O bien, podría considerar el uso de una SIT basada en un diccionario normal como elemento de clasificación para el SIT de EDM.

Al intentar hacer coincidir cadenas numéricas, especifique los intervalos permitidos de números, como el número de dígitos o los dígitos iniciales, si se conocen. Si necesita coincidir con un intervalo de números relativamente flexible, puede usar palabras clave en el SIT base para reducir el número de coincidencias. Por ejemplo, si intenta hacer coincidir los números de cuenta que constan de entre 7 y 11 dígitos, agregue las palabras account, customer, acct. a SIT como evidencia adicional necesaria. Esto reduce la probabilidad de coincidencias innecesarias que podrían dar lugar a superar los límites de coincidencias de EDM que se pueden procesar.

Si un campo que necesita usar como elemento principal sigue un patrón simple que puede dar lugar a un gran número de coincidencias y no puede agregar la presencia de palabras clave como evidencia adicional en sit, en su lugar puede requerir un número mínimo de repeticiones de ese patrón. Por ejemplo, podría usar una SIT personalizada definida de la siguiente manera para detectar al menos otros 29 números de cinco dígitos que rodean un número potencial de cinco dígitos con el que hacer coincidir en el contenido confidencial:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

En algunos casos, es posible que tenga que identificar determinados números de identificación de cuenta o registro que, por motivos históricos, no siguen un patrón estandarizado. Por ejemplo, Medical Record Numbers se puede componer de muchas permutaciones diferentes de letras y números dentro de la misma organización. Aunque al principio podría ser difícil identificar un patrón, una inspección más estrecha a menudo permite restringir un patrón que describe todos los valores válidos sin provocar un número excesivo de coincidencias no válidas. Por ejemplo, se podría detectar que "todos los MRN tienen al menos siete caracteres de longitud, tienen al menos dos dígitos numéricos y, si tienen letras en ellos, comienzan por uno". La creación de una expresión regular basada en estos criterios debe permitir minimizar las coincidencias innecesarias al capturar todos los valores deseados, y un análisis adicional podría permitir una mayor precisión mediante la definición de patrones independientes que describen distintos formatos.

Creación manual de un paquete de reglas

En este procedimiento se muestra cómo crear un archivo en formato XML denominado paquete de reglas (con codificación Unicode) y, a continuación, cargarlo en Microsoft Purview mediante cmdlets de PowerShell de cumplimiento de seguridad &.

Nota:

Si el SIT al que se asigna puede detectar pruebas corroborativas de varias palabras, los elementos secundarios que defina en un paquete de reglas creado manualmente se pueden asignar a SIT. Por ejemplo, el nombre John Smith no coincidiría como elemento secundario porque se compararía John y Smith se encontraría en el contenido por separado con el término John Smith cargado en uno de los campos, si ese campo de evidencia corroborativa no se asignara a una SIT que pueda detectar ese patrón.

Hay un límite de 10 paquetes de reglas en un inquilino de Microsoft 365. Dado que un paquete de reglas puede contener un número arbitrario de tipos de información confidencial, puede evitar crear un nuevo paquete de reglas cada vez que quiera definir un nuevo SIT mediante este método, en su lugar exportar un paquete de reglas existente y agregar los tipos de información confidencial al XML antes de volver a cargarlo.

  1. Cree un paquete de reglas en formato XML (con codificación Unicode), similar al siguiente ejemplo: (Puede copiar, modificar y usar nuestro ejemplo).

    Al configurar el paquete de reglas, asegúrese de hacer referencia correctamente al archivo de tabla de origen de información confidencial delimitada .csv, .tsv o canalización (|) y edm.xml archivo de esquema. Puede copiar, modificar y usar nuestro ejemplo. En este xml de ejemplo, los siguientes campos deben personalizarse para crear el tipo confidencial de EDM:

    • RulePack id y ExactMatch id: use New-GUID para generar un GUID.

    • Datastore: este campo especifica el almacén de datos de búsqueda de EDM que se va a usar. Proporcione el nombre del origen de datos del esquema EDM configurado.

    • idMatch: este campo señala al elemento principal para EDM.

    • Coincidencias: especifica el campo que se va a usar en la búsqueda exacta. Se proporciona un nombre de campo que se puede buscar en el esquema EDM para DataStore.

    • Clasificación: este campo especifica la coincidencia sit que desencadena la búsqueda de EDM. Puede usar el nombre o GUID de un SIT integrado o personalizado existente.

    Nota:

    Tenga en cuenta que cualquier cadena que coincida con la SIT proporcionada se aplicará un hash y se comparará con todas las entradas de la tabla de origen de información confidencial. Para evitar problemas de rendimiento si elige un SIT personalizado para el elemento de clasificación, no use uno que coincida con un gran porcentaje de contenido. Por ejemplo, uno que coincida con "cualquier número" o "cualquier palabra de cinco letras". Puede diferenciarla agregando palabras clave auxiliares o incluyendo el formato en la definición de la clasificación personalizada SIT.

    • Coincidencia: este campo apunta a pruebas adicionales encontradas en la proximidad de idMatch.

    • Coincidencias: proporcione cualquier nombre de campo en el esquema EDM para DataStore.

    • Recurso idRef: En esta sección se especifica el nombre y la descripción del tipo confidencial en varias configuraciones regionales.

      • Proporcione guid para exactmatch id.
      • Nombre & descripción: personalice según sea necesario.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. Cargue el paquete de reglas ejecutando el siguiente comando de PowerShell:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

Nota:

La sintaxis del archivo de paquete de reglas es la misma que para otros tipos de información confidencial. Para obtener detalles completos sobre la sintaxis del archivo de paquete de reglas y para obtener opciones de configuración adicionales, y para obtener instrucciones sobre cómo modificar y eliminar tipos de información confidencial mediante PowerShell, cree una SIT personalizada con PowerShell.

Paso siguiente