Obtener información sobre los tipos de información confidencial basados en coincidencias exactas de datos

Artículo
12/12/2023

Los tipos de información confidencial (SIT) se usan para ayudar a identificar datos confidenciales de forma que pueda evitar que se compartan involuntariamente o de forma inapropiada. También se usan para ayudar a localizar datos relevantes en eDiscovery y para aplicar acciones de gobernanza a determinados tipos de información. Defina una SIT personalizada basada en:

patrones
evidencia de palabras clave, como el empleado, el número de seguro social o el identificador
proximidad de caracteres a la evidencia en un patrón determinado
niveles de confianza

¿Pero qué ocurre si quiere una SIT personalizada que use valores de datos exactos o casi exactos, en lugar de uno que encuentre coincidencias basadas en patrones genéricos? Con la clasificación basada en coincidencia exacta de datos (EDM), puede crear un tipo de información confidencial personalizado diseñado para:

ser dinámico y actualizarse fácilmente
dar lugar a menos falsos positivos
funcionar con datos confidenciales estructurados
controlar la información confidencial de forma más segura, no compartirla con nadie, incluido Microsoft
usarse con varios servicios en la nube de Microsoft.

Sugerencia

Si no es cliente de E5, use la prueba de soluciones de Microsoft Purview de 90 días para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de datos. Comience ahora en el centro de pruebas de portal de cumplimiento Microsoft Purview. Obtenga más información sobre los términos de suscripción y evaluación.

La clasificación basada en EDM permite crear SIT personalizados que hacen referencia a valores exactos en una base de datos de información confidencial. La base de datos se puede actualizar diariamente y puede contener hasta 100 millones de filas de datos. Por lo tanto, a medida que los empleados, los pacientes y los clientes van y vienen, y a medida que cambian los registros, los tipos de información confidencial personalizados siguen siendo actuales y aplicables. Además, puede usar la clasificación basada en EDM con directivas, como directivas de Prevención de pérdida de datos de Microsoft Purview o directivas de archivos de Microsoft Cloud App Security.

En el diagrama siguiente se muestra el funcionamiento fundamental de la clasificación de EDM:

Clasificación basada en EDM.

Nota:

Microsoft Purview Information Protection admite los siguientes lenguajes que usan juegos de caracteres de doble byte:

Chino (simplificado)
Chino (tradicional)
Coreano
Japonés

Este soporte está disponible para tipos de información confidencial. Para obtener más información, consulte Compatibilidad con la protección de la información para conjuntos de caracteres de doble byte: Notas de la versión (versión preliminar).

¿Qué es diferente en un SIT de EDM?

Cuando se trabaja con SIT de EDM, resulta útil comprender algunos conceptos que son únicos para ellos.

Esquema

Un esquema es un archivo XML. Microsoft Purview usa el esquema para determinar si los datos contienen o no cadenas que coinciden con las que los tipos de información confidencial están diseñados para detectar.

El archivo XML de esquema define:

Nombre del esquema, más adelante denominado DataStore.
Los nombres de campo que contiene la tabla de origen de información confidencial. Hay una asignación 1:1 de nombres de campo de esquema a los nombres de columna de la tabla de origen de información confidencial.
Qué campos de evidencia corroborativa requieren el modo de coincidencia de varios tokens.
Qué campos de datos se pueden buscar.
Se admiten o no coincidencias configurables para cada campo. Una coincidencia configurable es una con parámetros que modifican una búsqueda, como omitir delimitadores y mayúsculas de minúsculas en los valores buscados.

Tabla de origen de información confidencial

La tabla de origen de información confidencial contiene los valores que busca sit de EDM. La tabla se compone de columnas y filas. Los encabezados de columna son los nombres de campo, las filas son instancias de elementos y cada celda de una fila contiene los valores de esa instancia de elemento para ese campo.

Este es un ejemplo sencillo de una tabla de origen de información confidencial.

Nombre	Apellidos	Fecha de nacimiento
Isaías	Langer	05-05-1960
Ana	Bowman	11-24-1971
Oscar	Ward	02-12-1998

Paquete de reglas

Cada tipo de información confidencial tiene un paquete de reglas. El paquete de reglas se usa en una SIT de EDM para definir los distintos componentes de la SIT de EDM. En la tabla siguiente se proporciona una descripción de cada componente.

Componente	Descripción
Coincidir	Especifica el elemento principal (campo de datos) que se va a usar en la búsqueda exacta. Puede ser una expresión regular con o sin una validación de suma de comprobación, una lista de palabras clave, un diccionario de palabras clave o una función.
Clasificación	Especifica la coincidencia del tipo de información confidencial que desencadena una búsqueda de EDM.
Elementos auxiliares	Elementos que, cuando se encuentran, proporcionan pruebas que ayudan a aumentar la confianza de la coincidencia. Por ejemplo, la aparición de un apellido muy cerca de un número de seguro social real. Un elemento auxiliar puede ser una expresión regular con o sin una validación de suma de comprobación, una lista de palabras clave, un diccionario de palabras clave o una coincidencia de cadena de un solo token o de varios tokens.
Nivel de confianza (Alto, Medio, Bajo)	Indicación de la cantidad de pruebas auxiliares que se detectan además del elemento principal. Cuantos más pruebas auxiliares contenga un elemento, mayor será la confianza en que un elemento coincidente contiene la información confidencial que está buscando. Para obtener más información sobre los niveles de confianza, vea Partes fundamentales de un tipo de información confidencial.
Proximidad	Número de caracteres entre el elemento principal y el elemento auxiliar.

Proporcione su propio esquema y datos.

Microsoft Purview incluye muchos SIT integrados predefinidos . Estos SIT vienen con esquemas, patrones REGEX, palabras clave y niveles de confianza. Sin embargo, con los SIT de EDM, es responsable de definir el esquema, así como los campos principal y secundario que identifican elementos confidenciales. Dado que el esquema y los valores de datos principal y secundario son muy confidenciales, se cifran a través de una función hash que incluye un valor de sal generado aleatoriamente o proporcionado automáticamente. Solo los valores hash se cargan en el servicio, por lo que los datos confidenciales nunca están abiertos.

Elementos de soporte técnico principal y secundario

Al crear una SIT de EDM, se define un campo de elemento principal en el paquete de reglas. A continuación, EDM busca en todo el contenido el elemento principal. Para que EDM pueda detectarlos, los elementos primarios deben detectarse a través de una SIT existente.

Nota:

Para obtener una lista completa de los SIT disponibles, consulte Definiciones de entidades de tipo de información confidencial.

Debe encontrar una SIT integrada que detecte la información confidencial que quiere que detecte el SIT de EDM. Por ejemplo, si el esquema SIT de EDM tiene el número de seguridad social de EE. UU. como elemento principal, al crear el esquema EDM, lo asociaría con el NÚMERO de seguro social (SSN) SIT de EE. UU. Los elementos principales deben seguir un patrón definido para poder detectarse.

Cuando se encuentra el elemento principal en un elemento examinado, EDM busca elementos secundarios (también denominados elementos auxiliares ). A diferencia de los elementos primarios, los elementos secundarios tienen la opción de seguir un patrón. Si los elementos secundarios contienen varios tokens, esos elementos deben asociarse a una SIT que pueda detectar ese contenido o que se pueda configurar para la coincidencia de varios tokens. En todos los casos, los elementos secundarios deben estar dentro de una cierta proximidad al elemento principal para que se detecte una coincidencia.

Funcionamiento de la coincidencia

EDM funciona comparando las cadenas de los documentos y los correos electrónicos con los valores de la tabla de origen de información confidencial. Usa esta comparación para determinar si los valores del contenido examinado están presentes en la tabla. La determinación se realiza mediante la comparación de hashes criptográficos unidireccionales.

Sugerencia

Puede usar los SIT de EDM y los SIT predefinidos en los que se basan, juntos en las reglas DLP para mejorar la detección de datos confidenciales. Use el SIT de EDM con niveles de confianza más altos y el SIT predefinido con niveles de confianza inferiores. Por ejemplo, use un SIT de EDM que busque el número de seguridad social y otros datos auxiliares con requisitos estrictos con alta confianza. Si se configura para coincidencias de alta confianza, EDM genera una coincidencia DLP cuando solo se detectan algunas instancias. Para desencadenar una coincidencia DLP cuando se detecte un mayor número de repeticiones, use una SIT integrada, como el número de seguro social de EE. UU.

Cómo funcionan los elementos auxiliares con EDM

Como se describe en What's different in an EDM SIT, los elementos auxiliares son elementos que, cuando se encuentran, proporcionan pruebas que ayudan a aumentar la confianza de la coincidencia.

Con la compatibilidad con los SIT de EDM, puede buscar y detectar elementos auxiliares que se componen de varios campos. Las coincidencias de elementos auxiliares pueden constar de listas de palabras clave, diccionarios de palabras clave, cadenas alfanuméricas únicas o cadenas de varios tokens.

Echemos un vistazo a un ejemplo. Supongamos que desea detectar números del Seguro Social de EE. UU. Para aumentar la confianza de la coincidencia, los elementos auxiliares incluyen first name, last namey date of birth (DoB). Por lo tanto, la tabla de origen tiene un aspecto similar al siguiente:

SSN	FirstName	LastName	Dob
987-65-4320	Isaías	Langer	05-05-1960
078-05-1120	Ana	Bowman	11-24-1971
219-09-9999	Oscar	Ward	02-12-1998

Al buscar elementos auxiliares coincidentes en un archivo protegido, la SIT de EDM comprueba cada elemento auxiliar (tanto individual como combinado) una vez que se detecta el elemento principal.

Por ejemplo, supongamos que se detecta el primer número de seguro social. A continuación, la funcionalidad de coincidencia exacta de datos busca combinaciones de elementos auxiliares en todas las columnas de la tabla de origen:

Isaías
Langer
05-05-1960
Isaiah Langer
Isaías 05-05-1960
Langer 05-05-1960
Isaías Langer 05-05-1960

Coincidencia de varios tokens

La coincidencia de varios tokens está diseñada para usarse cuando el campo de evidencia corroborativa contiene valores de varios tokens, pero la coincidencia de estos valores con una SIT no se realiza fácilmente. Por ejemplo, cuando tiene un Address campo que contiene valores como 1 Microsoft Way, Redmond, WA o 123 Main Street, New York, NY.

Esta característica permite a EDM comparar los hashes de palabras consecutivas en el contenido con los hashes de los campos de varios tokens del origen de datos. Si son idénticas, EDM genera una coincidencia. De este modo, EDM puede detectar campos de varios tokens, como nombres, direcciones, condiciones médicas o cualquier otro campo de evidencia corroborativa que pueda contener más de una palabra, siempre y cuando estén marcados como varios tokens en el esquema de EDM.

Por ejemplo, si selecciona la coincidencia de varios tokens como opción de coincidencia, obtendrá dos ventajas adicionales:

Las directivas detectarán contenido que coincida con varios campos en las columnas de la tabla de origen.
La tabla de origen puede incluir campos con valores de cadena que constan de un número preconfigurado de palabras. En la tabla siguiente se muestra una tabla de origen de ejemplo:

SSN	Nombre	Dirección
987-65-4320	Isaiah Langer	1432 Lincoln Road
078-05-1120	Ana Bowman	8250 First Street
219-09-9999	Oscar Ward	424 205th Avenue

Con la coincidencia de varios tokens, los campos Name y Street Address coinciden como cadenas de elementos auxiliares independientes y en combinación como campos individuales. Por lo tanto, cuando se comparan como cadenas de varios tokens como elementos auxiliares para el número 987-65-4320 del Seguro Social, las coincidencias son:

Isaiah Langer
1432 Lincoln Road

Cuando se coincide en combinación, la coincidencia es similar a la siguiente:

Isaiah Langer + 1432 Lincoln Road

La coincidencia de varios tokens también se admite para conjuntos de caracteres de doble byte, que generalmente no usan espacios para separar palabras.

Servicios compatibles con EDM

Servicio	Ubicaciones
Prevención de pérdida de datos de Microsoft Purview	- SharePoint - OneDrive - Chat de Teams - Exchange Online - Dispositivos
Microsoft Defender for Cloud Apps	- SharePoint : OneDrive
Etiquetado automático (lado del servicio)	- SharePoint - OneDrive - Exchange Online
Etiquetado automático (lado cliente)	- Word - Excel - PowerPoint - Clientes de escritorio de Exchange
Clave administrada por el cliente	- SharePoint - OneDrive - Chat de Teams - Exchange Online - Word - Excel - PowerPoint - Clientes de escritorio de Exchange - Dispositivos
eDiscovery	- SharePoint - OneDrive - Chat de Teams - Exchange Online - Word - Excel - PowerPoint - Clientes de escritorio de Exchange
Administración de riesgos de Insider	- SharePoint - OneDrive - Chat de Teams - Exchange Online - Word - Excel - PowerPoint - Clientes de escritorio de Exchange

Vea también

Introducción a los tipos de información confidencial basados en las coincidencias exactas de datos