Procedimientos recomendados: generar conjuntos de datos etiquetados

Artikulua
11/19/2024

Este contenido se aplica a: v4.0 (GA) | Versiones anteriores: v3.1 (GA) v3.0 (GA)

Los modelos personalizados (plantilla y neuronal) necesitan un conjunto de datos etiquetado de al menos cinco documentos para entrenar un modelo. La calidad del conjunto de datos etiquetado afecta a la precisión del modelo entrenado. Esta guía le ayudará a obtener más información sobre la generación de un modelo con alta precisión mediante el ensamblado de un conjunto de datos diverso y, además, proporciona procedimientos recomendados para etiquetar los documentos.

Descripción de los componentes de un conjunto de datos etiquetado

Un conjunto de datos etiquetado consta de varios archivos:

Usted proporciona un conjunto de documentos de ejemplo (por lo general, archivos PDF o imágenes). Se necesita un mínimo de cinco documentos para entrenar un modelo.
Además, el proceso de etiquetado genera estos archivos:
- Se crea un archivo fields.json cuando se agrega el primer campo. Existe un archivo fields.json para todo el conjunto de datos de entrenamiento, la lista de campos contiene el nombre del campo, así como los subcampos y tipos asociados.
- Studio ejecuta cada uno de los documentos a través de la API de Diseño. La respuesta de diseño de cada uno de los archivos de ejemplo del conjunto de datos se agrega como {file}.ocr.json. La respuesta de diseño se usa para generar las etiquetas de campo cuando se etiqueta un intervalo de texto específico.
- Se crea o actualiza un archivo {file}.labels.json cuando un campo está etiquetado en un documento. El archivo de etiqueta contiene los intervalos de texto y polígonos asociados de la salida del diseño para cada intervalo de texto que el usuario agrega como valor para un campo específico.

Vídeo: Sugerencias y punteros de etiquetas personalizadas

El siguiente vídeo es el primero de dos presentaciones diseñadas para ayudarle a crear modelos personalizados con mayor precisión (la segunda presentación examina los procedimientos recomendados para etiquetar documentos).
Exploramos cómo crear un conjunto de datos equilibrado y seleccionamos los documentos adecuados para etiquetar. Este proceso le permite conocer modelos de mayor calidad.

Creación de un conjunto de datos equilibrado

Antes de comenzar con el etiquetado, se recomienda examinar algunos ejemplos del documento diferentes a fin de identificar los ejemplos que quiera usar en el conjunto de datos etiquetado. Un conjunto de datos equilibrado representa todas las variaciones típicas que cabría esperar del documento. La creación de un conjunto de datos equilibrado da como resultado un modelo con la mayor precisión posible. Algunos ejemplos que se deben tener en cuenta son:

Formatos de documento: si prevé analizar documentos digitales y escaneados, agregue algunos ejemplos de cada tipo al conjunto de datos de entrenamiento.
Variaciones (modelo de plantilla): considere la posibilidad de dividir el conjunto de datos en carpetas y entrenar un modelo para cada una de las variaciones. Todas las variaciones que incluyen estructura o diseño deben dividirse en modelos diferentes. A continuación, puede componer los modelos individuales en un único modelo compuesto.
Variaciones (modelos neuronales): cuando el conjunto de datos tiene un conjunto de variaciones que puede administrarse, aproximadamente 15 o menos, cree un único conjunto de datos con algunos ejemplos de cada una de las diferentes variaciones para entrenar un único modelo. Si el número de variaciones de plantillas es mayor que 15, deberá entrenar varios modelos y los combinarlos.
Tablas: en el caso de los documentos que contienen tablas con un número variable de filas, asegúrese de que el conjunto de datos de entrenamiento también representa los documentos con números diferentes de filas.
Tablas de varias páginas: cuando las tablas abarcan varias páginas, etiquete una sola tabla. Agregue documentos al conjunto de datos de entrenamiento con las variaciones previstas representadas: documentos con la tabla en una sola página y documentos con la tabla en dos o más páginas con todas las filas etiquetadas.
Campos opcionales: si el conjunto de datos contiene documentos con campos opcionales, debe validar que el conjunto de datos de entrenamiento tenga algunos documentos con las opciones representadas.

Empiece por identificar los campos

Tómese el tiempo que necesite para identificar cada uno de los campos que tiene previsto etiquetar en el conjunto de datos. Preste atención a los campos opcionales. Defina los campos con las etiquetas que mejor coincidan con los tipos admitidos.

Use las instrucciones siguientes para definir los campos:

En el caso de los modelos neuronales personalizados, use nombres semánticamente relevantes para los campos. Por ejemplo, si el valor que se extrae es Effective Date, asígnele el nombre effective_dateo EffectiveDate, en lugar de un nombre genérico como date1.
Lo ideal es asignar un nombre a los campos con mayúsculas y minúsculas en Pascal o camelCase.
Si un valor forma parte de una estructura que se repite visualmente y solo necesita un único valor, etiquételo como una tabla y extraiga el valor necesario durante el procesamiento posterior.
En el caso de los campos tabulares que abarcan varias páginas, defina y etiquételos como una sola tabla.

Nota:

Los modelos neuronales personalizados comparten los mismos formato y estrategia de etiquetado que los modelos de plantilla personalizados. Actualmente, los modelos neuronales personalizados solo admiten un subconjunto de los tipos de campo admitidos por los modelos de plantilla personalizados.

Funcionalidades del modelo

Actualmente, los modelos neuronales personalizados solo admiten pares clave-valor, campos estructurados (tablas) y marcas de selección.

Tipo de modelo	Campos de formulario	Marcas de selección	Campos tabulares	Firma	Region	Campos superpuestos
Neuronal personalizado	✔️Admitidos	✔️Admitidos	✔️Admitidos	No compatible	✔️Admitido¹	✔️Admitido²
Plantilla personalizada	✔️Admitidos	✔️Admitidos	✔️Admitidos	✔️Admitidos	✔️Admitidos	No admitidas

¹ La implementación de etiquetado por regiones difiere entre los modelos neuronales y de plantilla. En el caso de los modelos de plantilla, el proceso de entrenamiento inserta datos sintéticos en el momento del entrenamiento si no se encuentra texto en la región etiquetada. Con los modelos neuronales, no se inserta texto sintético y el texto reconocido se usa tal cual.
² campos superpuestos se admiten a partir de la versión de la API v4.0 2024-11-30 (GA). Los campos superpuestos tienen algunos límites. Para obtener más información, consulte campos superpuestos.

Campos tabulares

Los campos tabulares (tablas) se admiten con modelos neuronales personalizados con la versión de API v4.0 2024-11-30 (GA). Los modelos entrenados con la versión de la API 2022-06-30-versión preliminar o posterior aceptarán etiquetas de campo tabulares y los documentos analizados con el modelo con la versión de la API 2022-06-30-versión preliminar o posterior producirán campos tabulares en la salida dentro de la sección documents del resultado en el objeto analyzeResult.

Los campos tabulares admiten tablas entre páginas de manera predeterminada. Para etiquetar una tabla que abarca varias páginas, etiquete cada fila en las distintas páginas de la tabla única. Como procedimiento recomendado, asegúrese de que el conjunto de datos contiene algunas muestras de las variaciones esperadas. Por ejemplo, incluya tanto ejemplos en los que toda una tabla esté en una sola página como ejemplos de una tabla que abarque dos o más páginas.

Los campos tabulares también son útiles al extraer información repetida dentro de un documento que no se reconoce como una tabla. Por ejemplo, una sección repetida de experiencias de trabajo en un currículum se puede etiquetar y extraer como un campo tabular.

Nota:

Campo de la tabla cuando se extraen como parte de la sección documents de la respuesta. La respuesta también contiene una sección tables que contiene las tablas extraídas del documento por el modelo de diseño. Si ha etiquetado un campo como una tabla, busque el campo en la sección de documentos de la respuesta.

Instrucciones de etiquetado

Se requieren valores de etiquetado. No incluya el texto circundante. Por ejemplo, al etiquetar una casilla, asigne un nombre al campo para indicar la selección de dicha casilla, por ejemplo selectionYes y selectionNo, en lugar de etiquetar el texto de "sí o no" en el documento.
No proporcione valores de campo de intercalación. El valor de palabras o regiones de un campo debe ser una secuencia consecutiva en orden de lectura natural.
Etiquetado coherente. Si un valor aparece en varios contextos dentro del documento, elija de manera coherente el mismo contexto en todos los documentos para etiquetar el valor.
Repetir visualmente los datos. Las tablas permiten la repetición visual de grupos de información, no solo tablas explícitas. Las tablas explícitas se identifican en la sección de tablas de los documentos analizados como parte de la salida del diseño y no es necesario etiquetarlas como tablas. Etiquete solo un campo de tabla si la información se repite visualmente y no se identifica como una tabla en la respuesta de diseño. Un ejemplo sería la sección de experiencia laboral repetida de un currículum.
Etiquetado por regiones (plantilla personalizada). El etiquetado de regiones específicas permite definir un valor cuando no existe ninguno. Si el valor es opcional, asegúrese de dejar algunos documentos de ejemplo con la región sin etiquetar. Al etiquetar regiones, no incluya el texto circundante con la etiqueta.
Campos superpuestos (neuronal personalizada). Etiquete las superposiciones de campo mediante el etiquetado de regiones. Asegúrese de que cumple al menos el ejemplo que describe cómo se pueden superponer los campos en el conjunto de datos de entrenamiento.

Pasos siguientes

Entrene un modelo personalizado:

Procedimiento para entrenar modelos
Vea las API de REST:

Document Intelligence API v4.0:2024-11-30 (GA)

API de Documento de inteligencia v3.1:2023-07-31 (GA)

Partekatu honen bidez: