Introducción a los clasificadores que se pueden entrenar
Artigo
Un clasificador que se puede entrenar de Microsoft Purview es una herramienta que puede entrenar para reconocer varios tipos de contenido al darle ejemplos a los que examinar. Una vez entrenado, puede usarlo para identificar el elemento para la aplicación de etiquetas de confidencialidad de Office, directivas de cumplimiento de comunicaciones y directivas de etiquetas de retención.
Se requieren dos pasos para implementar un clasificador personalizado que se puede entrenar:
Proporcione dos conjuntos de datos de ejemplo (seleccionados por humanos).
Conjunto que solo contiene elementos que pertenecen a la categoría.
Conjunto que contiene solo elementos que no pertenecen a la categoría.
Pruebe la capacidad del clasificador para detectar coincidencias.
En este artículo se explica cómo crear y probar un clasificador personalizado.
Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.
Requisitos previos
Requisitos de licencias
Los clasificadores son una característica de cumplimiento de Microsoft 365 E3 y E5. Debe tener una de estas suscripciones para poder usarlas.
Permissions
Para usar clasificadores en los siguientes escenarios, necesita los permisos siguientes:
Escenario
Permisos de rol necesarios
Directiva de etiqueta de retención
Administración de registros Administración de retención
Directiva de etiqueta de confidencialidad
Administrador de seguridad Administrador de cumplimiento Administrador de datos de cumplimiento
Directiva de cumplimiento de comunicaciones
Administrador de administración de riesgos internos Administrador de revisión de supervisión
Importante
De forma predeterminada, solo el usuario que crea un clasificador personalizado puede entrenar y revisar las predicciones realizadas por ese clasificador.
Preparación para un clasificador personalizado que se puede entrenar
Es útil comprender lo que implica la creación de un clasificador personalizado que se puede entrenar antes de profundizar.
Para asegurarse de que el clasificador que se puede entrenar pueda identificar de forma independiente y precisa que un elemento pertenece a una categoría determinada de contenido, debe presentarlo con muchos ejemplos del tipo de contenido que se encuentra en la categoría. Esta alimentación de muestras al clasificador entrenable se conoce como propagación. Un humano debe ser el que seleccione el contenido de inicialización y ese contenido debe incluir dos conjuntos de datos: uno que contiene solo elementos que representan fuertemente el contenido que el clasificador está diseñado para detectar (muestras positivas) y un segundo conjunto de elementos que claramente no pertenecen (muestras negativas).
Se necesitan al menos 50 muestras positivas (hasta 500) y al menos 150 muestras negativas (hasta 1500) para entrenar un clasificador. Cuantos más ejemplos proporcione, más precisas serán las predicciones que realice el clasificador. El clasificador entrenable procesa hasta los 2000 ejemplos creados más recientemente (por marca de fecha y hora creada por el archivo).
Suxestión
Para obtener mejores resultados, tenga al menos 200 elementos en el conjunto de muestras de prueba que incluya al menos 50 ejemplos positivos y al menos 150 ejemplos negativos.
Cómo crear un clasificador entrenable
Seleccione la pestaña adecuada para el portal que está usando. En función de su plan de Microsoft 365, el portal de cumplimiento Microsoft Purview se retirará o se retirará pronto.
En versión preliminar: El siguiente proceso automatiza las pruebas de clasificadores entrenables y acorta el flujo de trabajo de creación de 12 días a dos días. (En algunos casos, el proceso puede tardar solo unas horas).
Recopile un segundo conjunto de contenido de inicialización (de 150 a 1500 elementos) que represente datos que no pertenecen a la categoría.
Coloque el contenido de inicialización positivo y negativo en carpetas de SharePoint independientes. Cada carpeta debe estar dedicada a contener solo el contenido de inicialización. Anote la dirección URL del sitio, la biblioteca y la carpeta para cada conjunto.
Suxestión
Si crea un nuevo sitio y una carpeta de SharePoint para los datos de inicialización, espere al menos una hora para que esa ubicación se indexe antes de crear el clasificador entrenable que usará esos datos de inicialización.
Agregue el origen de los ejemplos positivos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que debe detectar el clasificador y, a continuación, elija Siguiente.
Agregue el origen de los ejemplos negativos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que debe omitir el clasificador y, a continuación, elija Siguiente.
Revise la configuración y elija Crear clasificador entrenable.
En un plazo de 24 horas o menos, el clasificador que se puede entrenar procesa los datos de inicialización y compila un modelo de predicción. El estado del clasificador es En curso mientras procesa los datos representativos. Cuando el clasificador termina de procesar los datos de inicialización, se completan los cambios de estado en Entrenamiento y se han probado los elementos.
Una vez que se haya completado el entrenamiento y se hayan probado (automáticamente) los elementos, publique el clasificador eligiendo Publicar para su uso.
Una vez que el clasificador entrenable procesa suficientes muestras positivas y negativas para crear un modelo de predicción, debe probar las predicciones que realiza. Al probar el clasificador, se comprueba si sus predicciones son correctas. Una vez procesados todos los datos, revise los resultados manualmente y compruebe si cada predicción es correcta, incorrecta o no está segura. Microsoft usa estos comentarios de forma agregada para mejorar el modelo de predicción.
En este módulo, se presenta la clasificación de datos en Microsoft 365, incluido cómo crear y entrenar clasificadores, ver datos confidenciales mediante el Explorador de contenido y el Explorador de actividades e implementar la creación de huella digital de documento.
Demuestre los aspectos básicos de la seguridad de los datos, la administración del ciclo de vida, la seguridad de la información y el cumplimiento para proteger una implementación de Microsoft 365.
Los clasificadores entrenables pueden reconocer varios tipos de contenido para la aplicación de etiquetas o directivas proporcionándole ejemplos positivos y negativos a los que examinar.
Este documento contiene todos los clasificadores entrenables, sus definiciones y todos los tipos de archivo que buscan para encontrar información confidencial.
La huella digital de documentos facilita la protección de la información mediante la identificación de formularios estándar que usa su organización. En este artículo se describen los conceptos subyacentes a la huella digital de documentos y cómo crear uno mediante PowerShell.
En este artículo se proporciona información general sobre los tipos de información confidencial y cómo detectan información confidencial como el seguro social, la tarjeta de crédito o los números de cuenta bancaria para identificar elementos confidenciales.
Obtenga información acerca de cómo crear un tipo de información confidencial personalizado que le permita usar reglas que cumplan con las necesidades de su organización.