Explorar los clasificadores entrenables
Las organizaciones clasifican y etiquetan el contenido para que puedan protegerlo y controlarlo correctamente. La clasificación y el etiquetado del contenido es el punto de partida para la protección de la información. Microsoft 365 tiene tres maneras de clasificar el contenido:
Manualmente. La clasificación manual requiere el criterio y la acción humanos. Los usuarios y administradores los aplican al contenido a medida que lo encuentran. Puede usar las etiquetas existentes y los tipos de información confidencial o usar las creadas de forma personalizada. A continuación, puede proteger el contenido y administrar su eliminación.
Coincidencia de patrones automatizada. Esta categoría de mecanismos de clasificación incluye la búsqueda de contenido mediante:
- Palabras clave o valores de metadatos (lenguaje de consulta de palabras clave).
- Usar patrones de información confidencial identificados anteriormente, como los números de la seguridad social, la tarjeta de crédito o de cuenta bancaria.
- Reconocimiento de un elemento porque es una variación en una plantilla (impresión con dedo del documento, que una unidad posterior de este entrenamiento cubre).
- Uso de la presencia de cadenas exactas que coinciden con los datos exactos.
Clasificadores que se pueden entrenar. Un clasificador entrenable de Microsoft 365 es una herramienta que una organización puede "entrenar" para reconocer varios tipos de contenido. Microsoft 365 incluye una amplia lista de clasificadores predefinidos. Las organizaciones también pueden crear sus propios clasificadores personalizados. Puede entrenar clasificadores proporcionándoles ejemplos a los que examinar. Una vez entrenado un clasificador, la organización puede usarlo para identificar elementos para la aplicación de etiquetas de confidencialidad de Office, directivas de cumplimiento de comunicaciones y directivas de etiquetas de retención.
Esta unidad examina el uso de clasificadores entrenables.
Clasificadores que se pueden entrenar
Para empezar a usar clasificadores entrenables en Microsoft Purview, primero puede iniciar un proceso de examen. Este proceso analiza los datos de la empresa e identifica los patrones que el sistema puede usar para entrenar el clasificador. Una vez que el sistema examina los datos, identifica los temas y patrones comunes. A continuación, el sistema puede crear reglas para el clasificador que se puede entrenar mediante esta información. Este proceso ayuda a garantizar que el clasificador que se puede entrenar sea preciso y eficaz para identificar y categorizar los datos. Una vez finalizado el proceso de examen, puede entrenar el clasificador mediante los patrones y reglas identificados. Cuando haya terminado de entrenar el clasificador, puede aplicarlo a los nuevos datos para clasificarlo automáticamente.
Advertencia
La exploración puede tardar entre 7 y 14 días en completarse. Si no desea ejecutar el proceso de examen para crear un clasificador de entrenamiento personalizado para su organización, puede usar los clasificadores integrados de Microsoft Purview.
La primera vez que acceda a la página Clasificadores de entrenamiento en el portal de cumplimiento Microsoft Purview, aparece la captura de pantalla siguiente.
La creación de un clasificador personalizado que se puede entrenar primero implica darle ejemplos que ha seleccionado manualmente y que coinciden positivamente con la categoría. Después, una vez que el clasificador entrenable procese esos ejemplos, pruebe la capacidad de predicción de los clasificadores proporcionándole una combinación de muestras positivas y negativas. Esta unidad examina cómo crear y entrenar un clasificador personalizado. También examina cómo mejorar el rendimiento de los clasificadores entrenables personalizados y los clasificadores previamente entrenados a lo largo de su duración mediante el reentrenamiento.
El método de clasificación funciona bien en el contenido que los métodos automatizados o manuales de coincidencia de patrones no pueden identificar fácilmente. Este método de clasificación consiste más en usar un clasificador para que identifique un elemento basándose en qué es el elemento y no en cuál es su contenido (coincidencia de patrones). Un clasificador aprende cómo identificar un tipo de contenido al revisar muchos ejemplos del contenido que se va a clasificar.
Nota:
Puede ver clasificadores entrenables en la herramienta Explorador de contenido expandiendo Clasificadores entrenables en el panel de filtros. Los clasificadores que se pueden entrenar muestran automáticamente el número de incidentes que se encuentran en SharePoint, Teams y OneDrive, sin necesidad de ningún etiquetado. Si no desea usar esta característica, debe presentar una solicitud con Soporte técnico de Microsoft para deshabilitar la clasificación inmediata. Al hacerlo, se deshabilita el examen del contenido confidencial y etiquetado antes de crear directivas de etiquetado.
Los clasificadores están disponibles para su uso como condición para:
- El etiquetado automático de Office con etiquetas de confidencialidad
- La aplicación automática de una directiva de etiqueta de retención basada en una condición
- Cumplimiento de comunicaciones
Nota:
Los clasificadores solo funcionan con elementos que no están cifrados.
Hay dos tipos de clasificadores que se pueden entrenar:
- Clasificadores previamente entrenados. Microsoft ha creado y entrenado previamente varios clasificadores que puede empezar a usar sin entrenarlos. Estos clasificadores aparecen con el estado Listo para usar.
- Clasificadores que se pueden entrenar personalizados. Si una organización tiene necesidades de clasificación que van más allá de lo que cubren los clasificadores previamente entrenados, puede crear y entrenar sus propios clasificadores.
En las secciones siguientes se examinan estos tipos de clasificador.
Clasificadores previamente entrenados
Microsoft 365 incluye varios clasificadores previamente entrenados:
Adultos, subido de tono y sangriento. Detecta imágenes de estos tipos. Las imágenes deben tener un tamaño de entre 50 kilobytes (KB) y 4 megabytes (MB). También deben ser mayores que 50 x 50 píxeles en dimensiones de alto x ancho. El sistema admite el examen y la detección de mensajes de correo electrónico de Exchange Online y los canales y chats de Microsoft Teams.
Contratos. Este clasificador detecta contenido relacionado con contratos legales. Por ejemplo, declaraciones de trabajo, contratos de préstamo y arrendamiento, y contratos de empleo y no conformes.
Quejas de clientes. El clasificador de quejas del cliente detecta los comentarios y las quejas realizadas sobre los productos o servicios de su organización. Este clasificador puede ayudarle a cumplir los requisitos normativos sobre la detección y evaluación de las quejas, como los requisitos de la Oficina para la Protección Financiera del Consumidor (Consumer Financial Protection Bureau) y la Administración de Alimentos y Medicamentos (Food and Drug Administration) de los Estados Unidos.
Discriminación. Este clasificador detecta el lenguaje discriminatorio explícito y es sensible al lenguaje discriminatorio contra las comunidades afroamericanas/negras en comparación con otras comunidades.
Finanzas. Este clasificador detecta contenido en las categorías de finanzas corporativas, contabilidad, economía, banca e inversión.
Acoso. Este clasificador detecta una categoría específica de elementos de texto de lenguaje ofensivo. Estos elementos deben estar relacionados con conductas ofensivas dirigidas a una o varias personas en función de los siguientes rasgos: raza, origen étnico, religión, origen nacional, género, orientación sexual, edad, discapacidad.
Sanidad. Este clasificador detecta contenido en aspectos de administración médica y sanitaria. Por ejemplo, servicios médicos, diagnósticos, tratamiento, reclamaciones, etc.
Recursos Humanos (RR. HH.). Este clasificador detecta contenido en categorías relacionadas con recursos humanos. Por ejemplo, el reclutamiento, la entrevista, la contratación, la formación, la evaluación, la advertencia y la terminación.
Propiedad Intelectual. Este clasificador detecta contenido en categorías relacionadas con la propiedad intelectual, como secretos comerciales e información confidencial similar.
Tecnología de la Información (TI). Este clasificador detecta contenido en las categorías Tecnología de la información y Ciberseguridad. Por ejemplo, la configuración de red, la seguridad de la información, el hardware y el software.
Asuntos jurídicos. Este clasificador detecta contenido en categorías relacionadas con asuntos jurídicos. Por ejemplo, litigios, procesos legales, obligación legal, terminología legal, ley y legislación.
Adquisiciones. Este clasificador detecta contenido en categorías de licitación, cita, compra y pago por suministro de bienes y servicios.
Lenguaje soez. Este clasificador detecta una categoría específica de elementos de texto de lenguaje ofensivo que contienen expresiones que incomoda a la mayoría de las personas.
Currículum vitae. Este clasificador detecta elementos docx, .pdf, .rtf y .txt que son cuentas textuales de las calificaciones personales, educativas, profesionales, experiencia profesional y otra información de identificación personal del solicitante.
Código fuente. Este clasificador detecta elementos que contienen un conjunto de instrucciones escritas en los 25 principales lenguajes de programación de equipos usados en GitHub: ActionScript, C, C#, C++, Clojure, CoffeeScript, Go, Haskell, Java, JavaScript, Lua, MATLAB, Objective-C, Perl, PHP, Python, R, Ruby, Scala, Shell, Swift, TeX, Vim Script.
Nota:
El clasificador de código fuente detecta cuándo la mayor parte del texto es código fuente. No detecta texto de código fuente intercalado con texto sin formato.
Fiscal. Este clasificador detecta el contenido de la relación fiscal, como el planeamiento fiscal, los formularios fiscales, la presentación de impuestos y las regulaciones fiscales.
Amenaza. Este clasificador detecta una categoría específica de elementos de texto con lenguaje ofensivo relacionados con amenazas para realizar violencia o causar daños físicos a una persona o propiedad.
Estos clasificadores entrenables aparecen en el portal de cumplimiento de Microsoft Purview. En el panel de navegación, seleccione Clasificación de datos. En la página Clasificación de datos, seleccione la pestaña Clasificadores entrenables. Vea los clasificadores con el estado Listo para usar.
Clasificadores capacitados personalizados
En algunas organizaciones, los clasificadores previamente entrenados no satisfacen sus necesidades de clasificación de datos. En esta situación, una organización puede crear y entrenar sus propios clasificadores. Hay más trabajo relacionado con la creación de un clasificador personalizado, pero una organización puede adaptarlos a sus necesidades. Los pasos de alto nivel implicados en la creación de un clasificador personalizado incluyen:
- Para empezar a crear un clasificador personalizado que se puede entrenar, debe alimentar ejemplos que definitivamente están en la categoría.
- Una vez que el clasificador procesa esos ejemplos, se prueba proporcionándole una combinación de ejemplos coincidentes y no coincidentes.
- A continuación, el clasificador realiza predicciones sobre si un elemento determinado pertenece a la categoría que está compilando.
- A continuación, debe confirmar sus resultados, ordenando los verdaderos positivos, los verdaderos negativos, los falsos positivos y los falsos negativos para ayudar a aumentar la precisión de sus predicciones.
- Una vez que le satisfagan los resultados de la prueba, implemente el clasificador publicándolo.
Al publicar el clasificador, ordena los elementos de ubicaciones como SharePoint Online, Exchange y OneDrive, y clasifica el contenido. Después de publicar el clasificador, puede seguir entrenándolo mediante un proceso de comentarios similar al proceso de entrenamiento inicial.
Por ejemplo, podría crear clasificadores entrenables para:
- Documentos legales. Por ejemplo, privilegios de cliente de abogado, conjuntos de cierre y declaraciones de trabajo.
- Documentos empresariales estratégicos. Por ejemplo, comunicados de prensa, fusiones y adquisiciones, ofertas, planes de negocio o marketing, propiedad intelectual, patentes y documentos de diseño.
- Información sobre precios. Por ejemplo, facturas, cotizaciones de precios, órdenes de trabajo y documentos de puja.
- Información financiera. Por ejemplo, las inversiones de la organización y los resultados trimestrales o anuales.
Preparación para un clasificador personalizado que se puede entrenar
Antes de profundizar, es útil comprender los componentes implicados en la creación de un clasificador personalizado que se puede entrenar. En las secciones siguientes se examina cada una de estos componentes.
Escala de tiempo
En el diagrama siguiente se muestra una escala de tiempo que refleja una implementación de ejemplo de clasificadores que se pueden entrenar.
Sugerencia
El sistema requiere que la primera vez se incluyan los clasificadores entrenables. Microsoft 365 tarda 12 días en completar una evaluación de línea base del contenido de una organización. Un administrador global de Microsoft 365 debe iniciar el proceso de participación.
Flujo de trabajo general
Para obtener más información sobre el flujo de trabajo general de la creación de clasificadores entrenables personalizados, consulte Flujo de proceso de creación de clasificadores entrenables personalizados.
Contenido representativo
Microsoft Purview usa clasificadores entrenables para identificar un elemento de forma independiente y precisa como una categoría concreta de contenido. Para crear un clasificador entrenable, una organización debe presentarlo primero con muchos ejemplos del tipo de contenido que se encuentra en la categoría. La propagación es el proceso de alimentación de muestras al clasificador entrenable. Una organización debe seleccionar el contenido representativo que quiere usar para representar la categoría de contenido.
Sugerencia
Debe tener al menos 50 muestras positivas, con un máximo de 500. muestras. El clasificador que se puede entrenar procesa hasta los 500 ejemplos creados más recientes (por marca de fecha y hora creada por el archivo). Cuantos más ejemplos proporcione, más precisas serán las predicciones que realice el clasificador.
Pruebas de contenido
Una vez que el clasificador entrenable procese suficientes ejemplos positivos para crear un modelo de predicción, la organización debe probar las predicciones que realiza el clasificador. Debe probar con datos diferentes a los datos iniciales de inicialización que proporcionó primero. Las pruebas deben comprobar si el clasificador puede distinguir correctamente entre los elementos que coinciden con la categoría y los elementos que no. Las pruebas deben comenzar seleccionando otro conjunto, con suerte mayor, de contenido seleccionado manualmente, conocido como ejemplo de prueba. Debe constar de ejemplos que entran en la categoría y ejemplos que no lo hacen.
Una vez que el clasificador procesa este ejemplo de prueba, debe revisar manualmente los resultados. Al hacerlo, debe comprobar si cada predicción es correcta, incorrecta o si no tiene claro su nivel de corrección. El clasificador que se puede entrenar usa estos comentarios para mejorar su modelo de predicción.
Sugerencia
Para obtener mejores resultados, tenga al menos 200 elementos en el ejemplo de prueba. Debe incluir una distribución uniforme de coincidencias positivas y negativas.