Sugerencias para crear conjuntos de datos etiquetados
Este contenido se aplica a: v3.1 (GA) | Versión más reciente: v4.0 (versión preliminar) | Versiones anteriores: v3.0
Este contenido se aplica a: v3.0 (GA) | Versiones más recientes: v4.0 (versión preliminar) v3.1
Importante
Los procedimientos recomendados para generar conjuntos de datos etiquetados solo se aplican a la plantilla personalizada y a los modelos neuronales personalizados, para los generativos personalizados, consulte Modelos generativos personalizados
Este artículo destaca los mejores métodos para el etiquetado de conjuntos de datos de modelos personalizados en Documento de inteligencia Studio. El etiquetado de documentos puede llevar mucho tiempo cuando se tiene un gran número de etiquetas, documentos largos o documentos con una estructura que varía. Estas sugerencias le ayudarán a etiquetar los documentos de manera más eficaz.
Vídeo: Procedimientos recomendados de etiquetas personalizadas
El siguiente vídeo es el segundo de las dos presentaciones diseñadas para ayudarle a crear modelos personalizados con mayor precisión (la primera presentación explora la creación de un conjunto de datos equilibrado).
Examinamos los procedimientos recomendados para etiquetar los documentos seleccionados. Con un etiquetado coherente y semánticamente pertinente, debería ver una mejora en el rendimiento del modelo.
Buscar
Estudio incluye ahora un cuadro de búsqueda para los casos en los que sabe que necesita encontrar palabras específicas para etiquetarlas, pero desconoce dónde se encuentran en el documento. Simplemente busque la palabra o frase y vaya a la sección específica del documento para etiquetar la repetición.
Tablas de etiquetas automáticas
Puede resultar difícil etiquetar las tablas cuando tienen muchas filas o un texto denso. Si la tabla de diseño extrae el resultado que necesita, solo debe usar dicho resultado y omitir el proceso de etiquetado. En los casos en los que la tabla de diseño no sea exactamente lo que necesita, puede empezar por generar el campo de la tabla a partir de los extractos de diseño de valores. Para empezar, seleccione el icono de tabla en la página y haga clic en el botón de etiqueta automática. A continuación, puede editar los valores según sea necesario. Actualmente la etiqueta automática solo admite tablas de página única.
Mayús activadas
Al etiquetar un gran intervalo de texto, en lugar de marcar cada palabra en dicho intervalo, mantenga presionada la tecla "Mayús" mientras selecciona las palabras a fin de acelerar el etiquetado, y asegúrese de que no se olvida de ninguna palabra en el intervalo de texto.
Etiquetado de regiones
Una segunda opción para etiquetar grandes extensiones de texto consiste en usar el etiquetado por regiones. Cuando se usa el etiquetado de regiones, los resultados de OCR
se rellenan en el valor en tiempo de entrenamiento. La diferencia entre el etiquetado mediante la selección de la tecla "Mayús" y el etiquetado por regiones radica únicamente en los comentarios visuales que proporciona el enfoque del etiquetado con la tecla "Mayús".
Etiquetado de campos superpuestos
Los campos superpuestos se admiten para campos y celdas de tabla. Si espera que los resultados de análisis contengan campos superpuestos, debe agregar al menos un ejemplo al conjunto de datos de entrenamiento con las superposiciones de campo específicas etiquetadas. Para etiquetar un campo superpuesto, use la característica de etiquetado de regiones para seleccionar las regiones de cada campo. Se admiten superposiciones completas y parciales. Cualquier palabra única del documento solo se puede etiquetar para dos campos.
Subtipos de campo
Al crear un campo, seleccione el subtipo adecuado para minimizar el procesamiento posterior, por ejemplo, haga clic en la opción dmy
de fechas para extraer los valores en un formato dd-mm-yyyy
.
Pasos siguientes
Obtenga más información sobre el etiquetado personalizado:
Más información sobre los modelos de plantilla personalizados: