Comparteix a través de


Exportación de datos de origen para tipos de información confidencial basados en coincidencias exactas de datos

Sugerencia

Si no es cliente de E5, use la prueba de soluciones de Microsoft Purview de 90 días para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de datos. Comience ahora en el centro de pruebas de portal de cumplimiento Microsoft Purview. Obtenga más información sobre los términos de suscripción y evaluación.

Se aplica a

La tabla de datos confidenciales es un archivo de texto que contiene filas de valores con los que se compara el contenido de los documentos para identificar datos confidenciales. Estos valores pueden ser información de identificación personal, registros de productos u otros datos confidenciales en forma de texto que quiera detectar en el contenido y proteger.

Una vez que exporte los datos de la tabla (en uno de los formatos admitidos), puede crear un esquema EDM.

Definición del tipo confidencial de EDM

Al definir el tipo confidencial de EDM, una de las decisiones más críticas es definir qué campos son los campos principales. Los campos principales deben seguir un patrón detectable y definirse como campos que se pueden buscar (columnas) en el esquema EDM. Los campos secundarios no necesitan seguir ningún patrón, ya que se compararán con todos los textos que rodean las coincidencias con los campos primarios.

Use estas reglas para ayudarle a decidir qué columnas debe usar como campos principales:

  • Si debe detectar datos confidenciales en función de la presencia de un único valor que coincida con un campo de la tabla de datos confidenciales, independientemente de la presencia de cualquier otro dato confidencial que lo rodea, esa columna debe definirse como un elemento principal para una SIT de EDM.
  • Si se deben detectar varias combinaciones de campos diferentes en la tabla de datos confidenciales en el contenido, identifique las columnas que son comunes a la mayoría de estas combinaciones y descifíquelas como elementos principales. Designe combinaciones de los demás campos como elementos secundarios.
  • Si una columna que desea usar como elemento principal no sigue un patrón detectable, como any text string o sigue patrones detectables que estarían presentes en algún lugar en un gran porcentaje de documentos o correos electrónicos, elija otras columnas mejor estructuradas como elementos principales.

Por ejemplo, si tiene las columnas full name, , date of birthaccount numbery Social Security Number, incluso si los nombres y apellidos son las columnas que son comunes a las distintas combinaciones de datos que desea detectar, estas cadenas no siguen patrones que se puedan identificar fácilmente y puedan ser difíciles de definir como un tipo de información confidencial. Hay varias razones para esto:

  • es posible que algunos nombres no empiecen con un carácter en mayúsculas
  • algunos pueden estar formados por dos, tres o más palabras o cadenas
  • algunos pueden contener números u otros caracteres no alfabéticos. Las fechas de nacimiento se pueden identificar más fácilmente, pero como cada correo electrónico y la mayoría de los documentos contendrán al menos una fecha, un DateOfBirth campo tampoco es un buen candidato. En su lugar, use campos como números de seguro social y números de cuenta, que son buenos candidatos para los campos primarios.

Plantillas de archivo de ejemplo

Para facilitar la selección de los campos principales, hemos reunido algunas plantillas de archivo de ejemplo para:

Se trata de archivos de valores separados por comas (.csv) que tienen los valores más usados en esos verticales del sector como encabezados de columna, junto con los valores sintéticos generados por Microsoft en las filas. Use los encabezados de columna para ayudarle a decidir los campos principales. El procedimiento recomendado consiste en exportar solo los datos de origen necesarios. Los encabezados de columna sugieren los campos más relevantes.

Para obtener información sobre cómo usar las plantillas de archivo de ejemplo, consulte Uso de las plantillas de archivo de ejemplo.

Guardar datos confidenciales en .csv, .tsv o formato separado por canalización

  1. Identifique la información confidencial que quiera usar. Exporte los datos a una aplicación como Microsoft Excel y guarde el archivo como un archivo de texto. El archivo se puede guardar en cualquiera de los siguientes formatos: .csv (valores separados por comas), formato .tsv (valores separados por tabulaciones) o (|)(separados por canalización). El formato .tsv se recomienda en los casos en los que los valores de datos pueden incluir comas, como direcciones postales. El archivo de datos puede incluir un máximo de:

    • Hasta 100 millones de filas de datos confidenciales
    • Hasta 32 columnas (campos) por origen de datos
    • Hasta 10 columnas (campos) marcadas como que se pueden buscar
  2. Estructurar los datos confidenciales en el archivo .csv o .tsv de modo que la primera fila incluya los nombres de los campos usados para la clasificación basada en EDM. En el archivo, es posible que tenga nombres de campo como "ssn", "birthdate", "firstname", "lastname". Los nombres de encabezado de las columnas no pueden contener espacios ni guiones bajos. Por ejemplo, el archivo .csv de ejemplo que usamos en este artículo se denomina RegistrosPacientes.csv y sus columnas IdPaciente, NEM, Apellido, Nombre, NSS, etc.

  3. Preste atención al formato de los campos de datos confidenciales; en concreto, los campos que pueden contener comas en su contenido. Por ejemplo, una dirección de calle que contiene el valor "Seattle, WA" se analizaría como dos campos independientes si se selecciona el formato de .csv. Para evitarlo, use el formato .tsv o rodeado de la coma que contiene valores entre comillas dobles en la tabla de datos confidenciales. Si la coma que contiene valores también contiene espacios, debe crear una SIT personalizada que coincida con el formato correspondiente. Por ejemplo, una SIT que detecta una cadena de varias palabras con comas y espacios en ella.

Paso siguiente

o

Consulte también