Comparteix a través de


Sugerencias para crear conjuntos de datos etiquetados

Este contenido se aplica a:marca de verificación v4.0 (versión preliminar) | Versiones anteriores: marca de verificación azul v3.1 (GA) marca de verificación azul v3.0 (GA)

Este contenido se aplica a: marca de verificación v3.1 (GA) | Versión más reciente: marca de verificación púrpura v4.0 (versión preliminar) | Versiones anteriores: marca de verificación azul v3.0

Este contenido se aplica a: marca de verificación v3.0 (GA) | Versiones más recientes: marca de verificación púrpura v4.0 (versión preliminar) marca de verificación púrpura v3.1

Importante

Los procedimientos recomendados para generar conjuntos de datos etiquetados solo se aplican a la plantilla personalizada y a los modelos neuronales personalizados, para los generativos personalizados, consulte Modelos generativos personalizados

Este artículo destaca los mejores métodos para el etiquetado de conjuntos de datos de modelos personalizados en Documento de inteligencia Studio. El etiquetado de documentos puede llevar mucho tiempo cuando se tiene un gran número de etiquetas, documentos largos o documentos con una estructura que varía. Estas sugerencias le ayudarán a etiquetar los documentos de manera más eficaz.

Vídeo: Procedimientos recomendados de etiquetas personalizadas

  • El siguiente vídeo es el segundo de las dos presentaciones diseñadas para ayudarle a crear modelos personalizados con mayor precisión (la primera presentación explora la creación de un conjunto de datos equilibrado).

  • Examinamos los procedimientos recomendados para etiquetar los documentos seleccionados. Con un etiquetado coherente y semánticamente pertinente, debería ver una mejora en el rendimiento del modelo.

Estudio incluye ahora un cuadro de búsqueda para los casos en los que sabe que necesita encontrar palabras específicas para etiquetarlas, pero desconoce dónde se encuentran en el documento. Simplemente busque la palabra o frase y vaya a la sección específica del documento para etiquetar la repetición.

Tablas de etiquetas automáticas

Puede resultar difícil etiquetar las tablas cuando tienen muchas filas o un texto denso. Si la tabla de diseño extrae el resultado que necesita, solo debe usar dicho resultado y omitir el proceso de etiquetado. En los casos en los que la tabla de diseño no sea exactamente lo que necesita, puede empezar por generar el campo de la tabla a partir de los extractos de diseño de valores. Para empezar, seleccione el icono de tabla en la página y haga clic en el botón de etiqueta automática. A continuación, puede editar los valores según sea necesario. Actualmente la etiqueta automática solo admite tablas de página única.

Mayús activadas

Al etiquetar un gran intervalo de texto, en lugar de marcar cada palabra en dicho intervalo, mantenga presionada la tecla "Mayús" mientras selecciona las palabras a fin de acelerar el etiquetado, y asegúrese de que no se olvida de ninguna palabra en el intervalo de texto.

Etiquetado de regiones

Una segunda opción para etiquetar grandes extensiones de texto consiste en usar el etiquetado por regiones. Cuando se usa el etiquetado de regiones, los resultados de OCR se rellenan en el valor en tiempo de entrenamiento. La diferencia entre el etiquetado mediante la selección de la tecla "Mayús" y el etiquetado por regiones radica únicamente en los comentarios visuales que proporciona el enfoque del etiquetado con la tecla "Mayús".

Etiquetado de campos superpuestos

Los campos superpuestos se admiten para campos y celdas de tabla. Si espera que los resultados de análisis contengan campos superpuestos, debe agregar al menos un ejemplo al conjunto de datos de entrenamiento con las superposiciones de campo específicas etiquetadas. Para etiquetar un campo superpuesto, use la característica de etiquetado de regiones para seleccionar las regiones de cada campo. Se admiten superposiciones completas y parciales. Cualquier palabra única del documento solo se puede etiquetar para dos campos.

Subtipos de campo

Al crear un campo, seleccione el subtipo adecuado para minimizar el procesamiento posterior, por ejemplo, haga clic en la opción dmy de fechas para extraer los valores en un formato dd-mm-yyyy.

Pasos siguientes