Modelos personalizados del documento de inteligencia

Artículo
10/17/2024

Importante

Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
- Centro-Norte de EE. UU

Este contenido se aplica a: v4.0 (versión preliminar) | Versiones anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Este contenido se aplica a: v3.1 (GA) | Última versión: v4.0 (versión preliminar) | Versiones anteriores: v3.0 v2.1

Este contenido se aplica a: v3.0 (GA) | Últimas versiones: v4.0 (versión preliminar) v3.1 | Versión anterior: v2.1

Este contenido se aplica a: v2.1 | Versión más reciente: v4.0 (versión preliminar)

Documento de inteligencia emplea tecnología avanzada de aprendizaje automático para identificar documentos, detectar y extraer información de formularios y documentos y devuelve los datos extraídos en una salida JSON estructurada. Con Documento de inteligencia, puede usar modelos de análisis de documentos, modelos compilados o entrenados previamente o modelos personalizados independientes entrenados.

Los modelos personalizados ahora incluyen modelos de clasificación personalizados para escenarios en los que necesita identificar el tipo de documento antes de invocar el modelo de extracción. Los modelos de clasificación están disponibles a partir de la API 2023-07-31 (GA). Un modelo de clasificación se puede emparejar con un modelo de extracción personalizado para analizar y extraer campos de formularios y documentos específicos de su empresa. Los modelos de extracción personalizados independientes se pueden combinar para crear modelos compuestos.

Tipos de modelo de documentos personalizados

Los modelos de documentos personalizados pueden ser de dos tipos, plantilla personalizada o formulario personalizado y modelos neuronales personalizados o de documentos personalizados. El proceso de etiquetado y entrenamiento de ambos modelos es idéntico, pero los modelos se diferencian en los siguientes aspectos:

Modelos de extracción personalizados

Para crear un modelo de extracción personalizado, etiquete un conjunto de datos de documentos con los valores que desea extraer y entrene el modelo en el conjunto de datos etiquetado. Solo necesita cinco ejemplos del mismo tipo de formulario o documento para empezar.

Modelo neuronal personalizado

Importante

A partir de la versión de API 4.0 (2024-02-29-preview), los modelos neuronales personalizados ahora admiten la confianza de los campos superpuestos y confianza de nivel de tabla, fila y celda.

El modelo neuronal personalizado (documento personalizado) utiliza modelos de aprendizaje profundo y un modelo base entrenado en una gran colección de documentos. Este modelo se ajustará o adaptará a los datos al entrenar el modelo con un conjunto de datos etiquetado. Los modelos neuronales personalizados admiten la extracción de campos de datos clave de documentos estructurados, semiestructurados y no estructurados. Al elegir entre los dos tipos de modelos, comience con un modelo neuronal para determinar si satisface sus necesidades funcionales. Vea modelos neuronales para obtener más información sobre los modelos de documentos personalizados.

Modelo de plantilla personalizado

El modelo de plantilla personalizada o formulario personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Las variaciones de la estructura visual de los documentos afectan la precisión del modelo. Las formas estructuradas, como cuestionarios o aplicaciones, son ejemplos de plantillas visuales coherentes.

El conjunto de entrenamiento consta de documentos estructurados donde el formato y el diseño son estáticos y constantes de una instancia de documento a la siguiente. Los modelos de plantilla personalizados admiten pares clave-valor, marcas de selección, tablas, campos de firma y regiones seleccionadas. Modelos de plantilla y se pueden entrenar en documentos en cualquiera de los idiomas admitidos. Para obtener más información, consulte modelos de plantilla personalizados.

Si el lenguaje de los escenarios de extracción y documentos admite modelos neuronales personalizados, recomendamos usar modelos neuronales personalizados a través de modelos de plantilla para una mayor precisión.

Sugerencia

Para confirmar que los documentos de entrenamiento presentan una plantilla visual coherente, quite todos los datos especificados por el usuario de cada formulario del conjunto. Si la apariencia de los formularios en blanco es idéntica, representan una plantilla visual coherente.

Para obtener más información, consulte Interpretar y mejorar la precisión y la confianza de los modelos personalizados.

Requisitos de entrada

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

Formatos de archivos admitidos:

Modelo	PDF	Imagen: `jpeg/jpg`, `png`, `bmp`, `tiff`, `heif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Leer	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-versión preliminar, 2023-10-31-versión preliminar y versiones posteriores)
Documento general	✔	✔
Creada previamente	✔	✔
Extracción personalizada	✔	✔
Clasificación personalizada	✔	✔	✔

✱ Los archivos de Microsoft Office no se admiten actualmente para otros modelos o versiones.

Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente 8texto de punto a 150 puntos por pulgada.
Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.
Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

Datos de entrenamiento óptimos

Los datos de entrada de entrenamiento son la base de cualquier modelo de aprendizaje automático. Determinan la calidad, la precisión y el rendimiento del modelo. Por lo tanto, es crucial crear los mejores datos de entrada de entrenamiento posibles para su proyecto de Documento de inteligencia. Cuando se usa el modelo personalizado de Documento de inteligencia, se proporcionan sus propios datos de entrenamiento. Estas son algunas sugerencias para ayudar a entrenar los modelos de forma eficaz:

Use archivos PDF basados en texto en lugar de archivos PDF basados en imágenes cuando sea posible. Una manera de identificar un PDF basado en imágenes*es intentar seleccionar texto específico en el documento. Si solo puede seleccionar toda la imagen del texto, el documento se basa en imágenes, no en texto.
Organice los documentos de entrenamiento mediante una subcarpeta para cada formato (JPEG/JPG, PNG, BMP, PDF o TIFF).
Use formularios que tengan todos los campos disponibles completados.
Use formularios con valores distintos en cada campo.
Use un conjunto de datos mayor (más de cinco documentos de entrenamiento) si sus imágenes son de baja calidad.
Determine si necesita usar un único modelo o varios modelos compuestos en un único modelo.
Considere la posibilidad de segmentar su conjunto de datos en carpetas, donde cada carpeta sea una plantilla única. Entrene un modelo por carpeta y componga los modelos resultantes en un único punto de conexión. La precisión del modelo puede disminuir si tiene diferentes formatos analizados con un único modelo.
Considere la posibilidad de segmentar su conjunto de datos para entrenar varios modelos si su formulario tiene variaciones con formatos y saltos de página. Los formularios personalizados se basan en una plantilla visual coherente.
Asegúrese de que tiene un conjunto de datos equilibrado teniendo en cuenta los formatos, los tipos de documento y la estructura.

Modo de compilación

La operación build custom model agrega compatibilidad con los modelos personalizados de plantilla y neuronal. Las versiones anteriores de la API de REST y las bibliotecas de cliente solo admitía un modo de compilación único que ahora se conoce como laplantilla modo.

Los modelos de plantilla solo aceptan documentos que tienen la misma estructura de página básica (una apariencia visual uniforme) o el mismo posicionamiento relativo de los elementos dentro del documento.
Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Ejemplos de estos documentos incluyen formularios W2 de Estados Unidos, que comparten la misma información, pero pueden variar en apariencia entre empresas.

En esta tabla se proporcionan vínculos a las referencias del SDK del lenguaje de programación en modo de compilación y ejemplos de código en GitHub:

Lenguaje de programación	Referencia de SDK	Ejemplo de código
C#/.NET	DocumentBuildMode Struct	Sample_BuildCustomModelAsync.cs
Java	DocumentBuildMode Class	BuildModel.java
JavaScript	DocumentBuildMode type	buildModel.js
Python	DocumentBuildMode Enum	sample_build_model.py

Comparación de características del modelo

En la tabla siguiente se comparan la plantilla personalizada y las características neuronales personalizadas:

Característica	Plantilla personalizada (formulario)	Neuronal personalizada (documento)
Estructura de documento	Plantilla, formulario y estructura	Estructurados, semiestructurados y no estructurados
Tiempo de entrenamiento	de 1 a 5 minutos	de 20 minutos a 1 hora
Extracción de datos	Pares clave-valor, tablas, marcas de selección, coordenadas y signaturas	Pares clave-valor, marcas de selección y tablas
Campos superpuestos	No compatible	Compatible
Variaciones de documentos	Requiere un modelo por cada variación	Utiliza un solo modelo para todas las variaciones
Compatibilidad con idiomas	Compatibilidad de idiomas con plantillas personalizadas	Compatibilidad de idiomas con neural personalizado

Modelos de clasificación personalizados

La clasificación de documentos es un nuevo escenario admitido por Documento de inteligencia con la API 2023-07-31 (v3.1 GA). La API clasificadora de documentos admite escenarios de clasificación y división. Entrene un modelo de clasificación para identificar los distintos tipos de documentos que admite la aplicación. El archivo de entrada del modelo de clasificación puede contener varios documentos y clasifica cada documento dentro de un intervalo de páginas asociado. Para obtener más información, consulte modelos de clasificación personalizados.

Nota:

A partir de la clasificación de documentos de la versión de la API de 2024-02-29-preview ahora admite tipos de documento de Office para la clasificación. Esta versión de API también introduce entrenamiento incremental para el modelo de clasificación.

Herramientas de modelos personalizados

Documento de inteligencia v3.1 y modelos posteriores son compatibles con las siguientes herramientas, aplicaciones y bibliotecas, programas y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo personalizado	• Estudio de Documento de inteligencia • API de REST • SDK de C# • SDK de Python	custom-model-id

Ciclo de vida del modelo personalizado

El ciclo de vida de un modelo personalizado depende de la versión de API que se usa para entrenarlo. Si la versión de la API es una versión de disponibilidad general (GA), el modelo personalizado tiene el mismo ciclo de vida que esa versión. El modelo personalizado no está disponible para la inferencia cuando la versión de la API está en desuso. Si la versión de la API es una versión preliminar, el modelo personalizado tiene el mismo ciclo de vida que la versión preliminar de la API.

Documento de inteligencia v2.1 es compatible con las siguientes herramientas, aplicaciones y bibliotecas:

Nota:

Los tipos de modelo personalizados neuronales y personalizadas están disponibles con las API de Document Intelligence v3.1 y v3.0.

Característica	Recursos
Modelo personalizado	● Herramienta de etiquetado de Documento de inteligencia ● API de REST ● SDK de biblioteca cliente ● Contenedor Docker de Documento de inteligencia

Compilación de un modelo personalizado

Extraiga datos de sus documentos específicos o únicos mediante modelos personalizados. Tendrá que supervisar los recursos siguientes:

Suscripción a Azure. Puede crear una de forma gratuita.
Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Herramienta de etiquetado de muestras

Sugerencia

Para obtener una experiencia mejorada y una calidad avanzada del modelo, pruebe Studio de Documento de inteligencia v3.0.
La versión 3.0 de Studio admite cualquier modelo entrenado con datos etiquetados de la versión 2.1.
Puede consultar la guía de migración de API para obtener información detallada sobre la migración de la versión 2.1 a la 3.0.
Consulte los inicios rápidos sobre la API REST o los SDK de C#, Java, JavaScript o Python para comenzar a trabajar con la versión v3.0.

La herramienta de etiquetado de ejemplo de Documento de inteligencia es una herramienta de código abierto que le permite probar las características más recientes de Documento de inteligencia y la característica de reconocimiento óptico de caracteres (OCR).
Pruebe el inicio rápido de la herramienta de etiquetado de ejemplo para empezar a crear y usar un modelo personalizado.

Estudio del documento de inteligencia

Nota:

Document Intelligence Studio está disponible con las API v3.1 y v3.0.

En la página principal de Documento de inteligencia Studio, seleccione Modelos de extracción personalizados.
En Mis proyectos, seleccione Crear un proyecto.
Complete los campos de detalles del proyecto.
Para configurar el recurso del servicio, agregue la cuenta de almacenamiento y el contenedor de blobs para conectar el origen de datos de entrenamiento.
Revise y cree el proyecto.
Agregue los documentos de ejemplo para etiquetar, compilar y probar el modelo personalizado.

Pruebar Document Intelligence Studio

Para obtener un tutorial detallado para crear el primer modelo de extracción personalizado, consulte Creación de un modelo de extracción personalizado.

Resumen de extracción de modelos personalizados

En esta tabla se comparan las áreas de extracción de datos admitidas:

Modelo	Campos de formulario	Marcas de selección	Campos estructurados (tablas)	Firma	Etiquetado de regiones	Campos superpuestos
Plantilla personalizada	✔	✔	✔	✔	✔	n/a
Neuronal personalizado	✔	✔	✔	n/a	*	✔ (2024-02-29-preview)

Símbolos de tabla:
✔—Compatible
**N/D—Actualmente no disponible;
*-Se comporta de forma diferente en función del modelo. Con los modelos de plantilla, los datos sintéticos se generan en el tiempo de entrenamiento. Con los modelos neuronales, se selecciona el texto de salida reconocido en la región.

Sugerencia

Al elegir entre los dos tipos de modelos, comience con un modelo neuronal personalizado si satisface sus necesidades funcionales. Vea neuronal personalizado para obtener más información sobre los modelos neuronales personalizados.

Opciones de desarrollo de modelos personalizados

En la tabla siguiente se describen las características disponibles con las herramientas asociadas y las bibliotecas cliente. Como procedimiento recomendado, asegúrese de usar las herramientas compatibles que se enumeran aquí.

Tipo de documento	API DE REST	SDK	Etiquetado y prueba de modelos
Plantilla personalizada v 4.0 v3.1 v3.0	Documento de inteligencia 3.1	SDK de Documento de inteligencia	Document Intelligence Studio
Neuronal personalizada v4.0 v3.1 v3.0	Documento de inteligencia 3.1	SDK de Documento de inteligencia	Document Intelligence Studio
Formulario personalizado v2.1	API de Documento de inteligencia 2.1 GA	SDK de Documento de inteligencia	Herramienta de etiquetado de ejemplo

Nota:

Los modelos de plantilla personalizados entrenados con la API 3.0 tendrán algunas mejoras con respecto a la API 2.1 a raíz de las mejoras del motor de OCR. Los conjuntos de datos usados para entrenar un modelo de plantilla personalizado mediante la API 2.1 todavía se pueden usar para entrenar un nuevo modelo mediante la API 3.0.

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Los formatos de archivo admitidos son JPEG/JPG, PNG, BMP, TIFF y PDF (texto insertado o digitalizado). Los PDF insertados de texto son mejores para eliminar la posibilidad de error en la extracción de caracteres y en la ubicación.
En el caso de los archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. Con una suscripción de nivel Gratis, solo se procesan las dos primeras páginas.
El tamaño del archivo debe ser inferior a 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Los archivos PDF tienen unas dimensiones de hasta 17 x 17 pulgadas, lo que corresponde a los tamaños de papel Legal o A3, o más pequeños.
El tamaño total de los datos de entrenamiento es de 500 páginas o menos.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
Sugerencia

Datos de entrenamiento:
- Si es posible, use documentos PDF de texto en lugar de documentos basados en imágenes. Los archivos PDF digitalizados se tratan como imágenes.
- Proporcione solo una instancia del formulario por documento.
- En el caso de los formularios rellenados, use ejemplos en los que estén todos los campos rellenados.
- Use formularios con valores distintos en cada campo.
- Si las imágenes de formulario son de menor calidad, use un conjunto de datos mayor. Por ejemplo, use de 10 a 15 imágenes.

Idiomas y configuraciones regionales compatibles

Consulte nuestra página de Compatibilidad de idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.

Pasos siguientes

Pruebe a procesar sus propios formularios y documentos con la Herramienta de etiquetado de muestras de Documento de inteligencia.
Complete el inicio rápido de Documento de inteligencia y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.

Pruebe a procesar sus propios formularios y documentos con Document Intelligence Studio.
Complete el inicio rápido de Documento de inteligencia y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.

Compartir vía

Modelos personalizados del documento de inteligencia

Tipos de modelo de documentos personalizados

Modelos de extracción personalizados

Modelo neuronal personalizado

Modelo de plantilla personalizado

Requisitos de entrada

Datos de entrenamiento óptimos

Modo de compilación

Comparación de características del modelo

Modelos de clasificación personalizados

Herramientas de modelos personalizados

Ciclo de vida del modelo personalizado

Compilación de un modelo personalizado

Herramienta de etiquetado de muestras

Estudio del documento de inteligencia

Resumen de extracción de modelos personalizados

Opciones de desarrollo de modelos personalizados

Idiomas y configuraciones regionales compatibles

Pasos siguientes

Comentarios

Recursos adicionales