Más información sobre la codificación predictiva en eDiscovery (Premium) (versión preliminar)

Artículo
10/01/2023

El módulo de codificación predictiva de eDiscovery (Premium) usa las funcionalidades de aprendizaje automático inteligentes para ayudarle a reducir la cantidad de contenido que se va a revisar. La codificación predictiva le ayuda a reducir y seleccionar grandes volúmenes de contenido de casos en un conjunto pertinente de elementos que puede priorizar para su revisión. Esto se logra mediante la creación y el entrenamiento de sus propios modelos de codificación predictiva que le ayudan a priorizar la revisión de los elementos más relevantes de un conjunto de revisión.

El módulo de codificación predictiva está diseñado para simplificar la complejidad de la administración de un modelo dentro de un conjunto de revisión y proporcionar un enfoque iterativo para entrenar el modelo para que pueda empezar a trabajar más rápido con las funcionalidades de aprendizaje automático en eDiscovery (Premium). Para empezar, puede crear un modelo, etiquetar tan solo 50 elementos como pertinentes o no pertinentes. El sistema usa este entrenamiento para aplicar puntuaciones de predicción a cada elemento del conjunto de revisión. Esto le permite filtrar los elementos en función de la puntuación de predicción, lo que le permite revisar primero los elementos más relevantes (o no relevantes). Si desea entrenar modelos con mayores precisiónes y tasas de recuperación, puede seguir etiquetando elementos en rondas de entrenamiento posteriores hasta que el modelo se estabilice.

Sugerencia

Si no es cliente de E5, use la prueba de soluciones de Microsoft Purview de 90 días para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de datos. Comience ahora en el centro de pruebas de portal de cumplimiento Microsoft Purview. Obtenga más información sobre los términos de suscripción y evaluación.

Flujo de trabajo de codificación predictiva

A continuación se muestra información general y descripción de cada flujo de trabajo de codificación predictiva de cada paso. Para obtener una descripción más detallada de los conceptos y terminología del proceso de codificación predictiva, consulte Referencia de codificación predictiva.

Flujo de trabajo de codificación predictiva.

Cree un nuevo modelo de codificación predictiva en el conjunto de revisión. El primer paso consiste en crear un nuevo modelo de codificación predictiva en el conjunto de revisión. Debe tener al menos 2000 elementos en el conjunto de revisión para crear un modelo. Después de crear un modelo, el sistema determinará el número de elementos que se usarán como conjunto de controles. El conjunto de controles se usa durante el proceso de entrenamiento para evaluar las puntuaciones de predicción que el modelo asigna a los elementos con el etiquetado que se realiza durante las rondas de entrenamiento. El tamaño del conjunto de controles se basa en el número de elementos del conjunto de revisión y en el nivel de confianza y el margen de los valores de error que se establecen al crear el modelo. Los elementos del conjunto de controles nunca cambian y no son identificables para los usuarios.

Para obtener más información, consulte Creación de un modelo de codificación predictiva.
Complete la primera ronda de entrenamiento etiquetando los elementos como pertinentes o no pertinentes. El siguiente paso consiste en entrenar el modelo iniciando la primera ronda de entrenamiento. Al iniciar una ronda de entrenamiento, el modelo selecciona aleatoriamente elementos adicionales del conjunto de revisión, que se denomina conjunto de entrenamiento. Estos elementos (tanto del conjunto de control como del conjunto de entrenamiento) se presentan para que pueda etiquetar cada uno de ellos como "pertinente" o "no relevante". La relevancia se basa en el contenido del elemento y no en ninguno de los metadatos del documento. Después de completar el proceso de etiquetado en la ronda de entrenamiento, el modelo "aprenderá" en función de cómo haya etiquetado los elementos en el conjunto de entrenamiento. En función de este entrenamiento, el modelo procesará los elementos del conjunto de revisión y aplicará una puntuación de predicción a cada uno.

Para obtener más información, consulte Entrenamiento de un modelo de codificación predictiva.
Aplique el filtro de puntuación de predicción a los elementos del conjunto de revisión. Una vez completado el paso de entrenamiento anterior, el siguiente paso es aplicar el filtro de puntuación de predicción a los elementos de la revisión para mostrar que los elementos que el modelo ha determinado son "más relevantes" (como alternativa, también podría usar un filtro de predicción para mostrar elementos que "no son pertinentes"). Cuando se aplica el filtro de predicción, se especifica un intervalo de puntuaciones de predicción que se van a filtrar. El intervalo de puntuaciones de predicción se encuentra entre 0 y 1, siendo 0 "no relevante" y 1 relevante. En general, los elementos con puntuaciones de predicción entre 0 y 0,5 se consideran "no relevantes" y los elementos con puntuaciones de predicción entre 0,5 y 1 se consideran pertinentes.

Para obtener más información, vea Aplicar un filtro de predicción a un conjunto de revisión.
Realice más rondas de entrenamiento hasta que el modelo se estabilice. Puede realizar rondas de entrenamiento adicionales si desea crear un modelo con una mayor precisión de predicción y mayores tasas de recuperación. La tasa de recuperación mide la proporción de elementos que el modelo predicho era relevante entre los elementos que son realmente pertinentes (los que ha marcado como pertinentes durante el entrenamiento). La puntuación de velocidad de recuperación oscila entre 0 y 1. Una puntuación más cercana a 1 indica que el modelo identificará elementos más relevantes. En una nueva ronda de entrenamiento, se etiquetan elementos adicionales en un nuevo conjunto de entrenamiento. Después de completar esa ronda de entrenamiento, el modelo se actualiza en función del nuevo aprendizaje de la última ronda de elementos de etiquetado del conjunto de entrenamiento. El modelo procesará de nuevo los elementos del conjunto de revisión y aplicará nuevas puntuaciones de predicción. Puede seguir realizando rondas de entrenamiento hasta que el modelo se estabilice. Un modelo se considera estabilizado cuando la tasa de abandono después de la última ronda de entrenamiento es inferior al 5 %. La tasa de renovación se define como porcentaje de elementos de un conjunto de revisión en el que la puntuación de predicción cambió entre las rondas de entrenamiento. El panel de codificación predictiva muestra información y estadísticas que le ayudan a evaluar la estabilidad de un modelo.
Aplique el filtro de puntuación de predicción "final" para revisar los elementos establecidos para priorizar la revisión. Después de completar todas las rondas de entrenamiento y estabilizar el modelo, el último paso es aplicar la puntuación de predicción final al conjunto de revisión para priorizar la revisión de los elementos pertinentes y no pertinentes. Esta es la misma tarea que realizó en el paso 3, pero en este momento el modelo es estable y no tiene previsto ejecutar más rondas de entrenamiento.

Más información sobre la codificación predictiva en eDiscovery (Premium) (versión preliminar)

Flujo de trabajo de codificación predictiva

Comentarios

Comentarios

Recursos adicionales