Compartir a través de


Probar y evaluar los modelos de resumen personalizados

Al crear el modelo de resumen personalizado, quieres asegurarte de que terminas con un modelo de calidad. Debes probar y evaluar el modelo de resumen personalizado para asegurarte de que funciona bien.

Instrucciones sobre los conjuntos de entrenamiento y pruebas divididos

Una fase importante de la creación de un modelo de resumen personalizado es validar que el modelo creado es satisfactorio en términos de calidad y genera resúmenes según lo previsto. Ese proceso de validación debe realizarse con un conjunto independiente de ejemplos (denominados ejemplos de prueba) que los ejemplos usados para el entrenamiento. Hay tres directrices importantes que se recomienda seguir al dividir los datos disponibles en entrenamiento y pruebas:

  • Tamaño: para establecer suficiente confianza sobre la calidad del modelo, el conjunto de pruebas debe tener un tamaño razonable. Probar el modelo en solo unos pocos ejemplos puede dar tiempos de evaluación de resultados engañosos. Se recomienda evaluar cientos de ejemplos. Cuando hay disponible un gran número de documentos o conversaciones, se recomienda reservar al menos el 10 % de ellos para las pruebas.
  • Sin superposición: es fundamental asegurarse de que el mismo documento no se usa para el entrenamiento y las pruebas al mismo tiempo. Las pruebas se deben realizar en documentos que nunca se usaron para el entrenamiento en cualquier fase; de lo contrario, la calidad del modelo se sobrestimará.
  • Diversidad: el conjunto de pruebas debe cubrir tantas características de entrada como sea posible. Por ejemplo, siempre es mejor incluir documentos de diferentes longitudes, temas, estilos, .. Etc. cuando sea aplicable. Del mismo modo, para el resumen de conversación, siempre es una buena idea incluir conversaciones de un número diferente de turnos y número de hablantes.

Guía para evaluar un modelo de resumen personalizado

Al evaluar un modelo personalizado, se recomienda usar la evaluación automática y manual juntas. La evaluación automática ayuda a juzgar rápidamente la calidad de los resúmenes generados para todo el conjunto de pruebas, por lo que abarca una amplia gama de variaciones de entrada. Sin embargo, la evaluación automática proporciona una aproximación de la calidad y no es suficiente por sí misma para establecer la confianza en la calidad del modelo. Por lo tanto, también se recomienda inspeccionar los resúmenes generados para tantos documentos de prueba como sea posible.

Evaluación automática

Actualmente, usamos una métrica llamada ROUGE (Estudio suplente orientado a la recuperación para la evaluación integral). Esta técnica incluye medidas para determinar automáticamente la calidad de un resumen comparándolo con resúmenes ideales creados por humanos. Las medidas cuentan el número de unidades superpuestas, como n-gramas, secuencias de palabras y pares de palabras entre el resumen generado por el equipo que se evalúa y los resúmenes ideales. Para obtener más información sobre Rouge, consulta la entrada de ROUGE de Wikipedia y el documento sobre el paquete ROUGE.

Evaluación manual

Al inspeccionar manualmente la calidad de un resumen, hay cualidades generales de un resumen que se recomienda comprobar además de las expectativas deseadas que el modelo personalizado se entrene para cumplir, como el estilo, el formato o la longitud. Las cualidades generales que recomendamos comprobar son:

  • Fluidez: el resumen no debe tener problemas de formato, errores de mayúsculas o oraciones no gramaticales.
  • Coherencia: el resumen debe estar bien estructurado y bien organizado. El resumen no debe ser solo un montón de información relacionada, sino que debe crearse a partir de una frase a otra en un cuerpo coherente de información sobre un tema.
  • Cobertura: el resumen debe abarcar toda la información importante del documento o conversación.
  • Relevancia: el resumen debe incluir solo información importante del documento o conversación de origen sin redundancias.
  • Alucinaciones: el resumen no contiene información incorrecta que no es compatible con el documento o conversación de origen.

Para obtener más información sobre la evaluación de resumen, consulta el artículo de MIT Press sobre SummEval.