Modelo neuronal personalizado de Documento de inteligencia

Artículo
10/17/2024

Importante

Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
- Centro-Norte de EE. UU

Este contenido se aplica a: v4.0 (versión preliminar) | Versiones anteriores: v3.1 (GA) v3.0 (GA)

Este contenido se aplica a: v3.1 (GA) | Versión más reciente: v4.0 (versión preliminar) | Versiones anteriores: v3.0

Este contenido se aplica a: v3.0 (GA) | Versiones más recientes: v4.0 (versión preliminar) v3.1

Los modelos de documentos neuronales personalizados o modelos neuronales son un tipo de modelo de aprendizaje profundo que combina características de diseño e idioma para extraer con precisión campos etiquetados de documentos. El modelo neuronal personalizado base se entrena en varios tipos de documentos que lo hacen adecuado para entrenarse para extraer campos de documentos estructurados y semiestructurados. Los modelos neuronales personalizados están disponibles en los modelos v3.0 y versiones posteriores La tabla siguiente enumera los tipos de documento comunes para cada categoría:

Documentos	Ejemplos
Estructurados	encuestas, cuestionarios
Semiestructurados	facturas, pedidos de compra

Los modelos neuronales personalizados comparten el mismo formato y la misma estrategia de etiquetado que los modelos de plantilla personalizados. Actualmente, los modelos neuronales personalizados solo admiten un subconjunto de los tipos de campo admitidos por los modelos de plantilla personalizados.

Funcionalidades del modelo

Importante

A partir de la versión de la API 2024-02-29-previewlos modelos neuronales personalizados agregan compatibilidad con los campos superpuestos y la confianza de las celdas de tabla.

Los modelos neuronales personalizados son compatibles actualmente con pares clave-valor y marcas de selección y campos estructurados (tablas).

Campos de formulario	Marcas de selección	Campos tabulares	Firma	Etiquetado de regiones	Campos superpuestos
Compatible	Admitido	Compatible	No compatible	Compatible ¹	Compatible ²

¹ Las etiquetas de región de los modelos neuronales personalizados usan los resultados de la API de diseño para la región especificada. Esta característica es diferente de los modelos de plantilla en los que, si no hay ningún valor presente, el texto se genera en el momento del entrenamiento.
² Los campos superpuestos son compatibles a partir de la versión 2024-02-29-preview de la API de REST. Los campos superpuestos tienen algunos límites. Para más información, vea campos superpuestos.

Modo de compilación

La operación Build es compatible con los modelos personalizados de plantilla y neuronal. Las versiones anteriores de la API de REST y las bibliotecas de cliente solo admitía un modo de compilación único que ahora se conoce como laplantilla modo.

Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Ejemplos de estos documentos incluyen formularios W2 de Estados Unidos, que comparten la misma información, pero pueden variar en apariencia entre empresas. Para más información, vea Modo de compilación de modelos personalizados.

Campos superpuestos

Con el lanzamiento de versiones de API 2024-02-29-preview y versiones posteriores, los modelos neuronales personalizados admiten campos superpuestos:

Campos superpuestos

Con el lanzamiento de versiones de API 2024-07-31-preview y versiones posteriores, los modelos neuronales personalizados admitirán campos superpuestos:

Para usar los campos superpuestos, el conjunto de datos debe contener al menos un ejemplo con la superposición esperada. Para etiquetar una superposición, use la etiqueta de región para designar cada uno de los intervalos de contenido (con la superposición) para cada campo. Al etiquetar una superposición con la selección de campos (resaltado de un valor) se produce un error en el estudio, ya que el etiquetado de regiones es la única herramienta de etiquetado compatible para indicar superposiciones de campo. El soporte con superposición incluye:

Superposición completa. El mismo conjunto de tokens se etiqueta para dos campos diferentes.
Superposición parcial. Algunos tokens pertenecen a ambos campos, pero hay tokens que solo forman parte de un campo u otro.

Los campos superpuestos tienen algunos límites:

Cualquier token o palabra solo se puede etiquetar como dos campos.
Los campos superpuestos de una tabla no pueden abarcar filas de tabla.
Los campos superpuestos solo se pueden reconocer si al menos un ejemplo del conjunto de datos contiene etiquetas superpuestas para esos campos.

Para usar campos superpuestos, etiquete el conjunto de datos con las superposiciones y entrene el modelo con la versión de la API 2024-02-29-preview o posterior.

Campos tabulares

Con el lanzamiento de las versiones de la API 2022-06-30-preview y posteriores, los modelos neuronales personalizados son compatibles con los campos tabulares (tablas) para analizar los datos de tablas, filas y celdas con mayor confianza:

Los modelos entrenados con la versión de API 2022-06-30-preview o posterior aceptarán etiquetas de campo tabulares.
Los documentos analizados con modelos neuronales personalizados mediante la versión de API 2022-06-30-preview o posterior generarán campos tabulares agregados en las tablas.
Los resultados se pueden encontrar en la matriz analyzeResult del objeto documents que se devuelve después de una operación de análisis.

Los campos tabulares admiten tablas entre páginas de forma predeterminada:

Para etiquetar una tabla que abarca varias páginas, etiquete cada fila de la tabla en las distintas páginas de una sola tabla.
Como procedimiento recomendado, asegúrese de que el conjunto de datos contiene algunas muestras de las variaciones esperadas. Por ejemplo, incluya ejemplos en los que toda la tabla se encuentra en una sola página y donde las tablas abarcan dos o más páginas.

Los campos tabulares también son útiles al extraer información repetida dentro de un documento que no se reconoce como una tabla. Por ejemplo, una sección repetida de experiencias de trabajo en un currículum se puede etiquetar y extraer como un campo tabular.

Los campos tabulares proporcionan confianza de tabla, fila y celdaa partir de la 2024-02-29-preview API:

Las tablas fijas o dinámicas agregan soporte de confianza con los siguientes elementos:
- Confianza de la tabla, una medida de la precisión en que se reconoce toda la tabla.
- Confianza de fila, medida de reconocimiento de una fila individual.
- Confianza de las celdas, medida del reconocimiento de una celda individual.
El enfoque recomendado consiste en revisar la precisión de forma descendente a partir de la tabla en primer lugar, seguida de la fila y, a continuación, de la celda. Consulte puntuaciones de confianza y precisión para obtener más información sobre la tabla, la fila y la confianza de las celdas.

Idiomas y configuraciones regionales compatibles

Consulte nuestra página de Compatibilidad de idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.

Regiones admitidas

A partir del 18 de octubre de 2022, el entrenamiento del modelo neuronal personalizado de Documento de inteligencia solo estará disponible en las regiones de Azure siguientes, hasta nuevo aviso:

Este de Australia
Sur de Brasil
Centro de Canadá
Centro de la India
Centro de EE. UU.
Este de Asia
Este de EE. UU.
Este de EE. UU. 2
Centro de Francia
Japón Oriental
Centro-sur de EE. UU.
Sudeste de Asia
Sur de Reino Unido 2
Oeste de Europa
Oeste de EE. UU. 2
US Gov: Arizona
US Gov - Virginia

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Requisitos de entrada

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

Formatos de archivos admitidos:

Modelo	PDF	Imagen: jpeg/`jpg`, `png`, `bmp`, `tiff`, `heif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) y HTML
Leer	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-versión preliminar, 2023-10-31-versión preliminar o posterior)
Documento general	✔	✔
Creada previamente	✔	✔
Neuronal personalizado	✔	✔

✱ Los archivos de Microsoft Office no se admiten actualmente para otros modelos o versiones.

Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente 8texto de punto a 150 puntos por pulgada.
Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.
Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

procedimientos recomendados

Los modelos neuronales personalizados difieren de los modelos de plantilla personalizados de varias maneras diferentes. El modelo de plantilla personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Los modelos neuronales personalizados admiten campos estructurados y semiestructurados. Al elegir entre los tipos de modelos, comience con un modelo neuronal y pruebe para determinar si es compatible con sus necesidades funcionales.

Tratar con variaciones: los modelos neuronales personalizados pueden generalizarse en diferentes formatos de un solo tipo de documento. Como procedimiento recomendado, cree un modelo único para todas las variaciones de un tipo de documento. Agregue al menos cinco ejemplos etiquetados de cada una de las distintas variaciones al conjunto de datos de entrenamiento.
Nombre de campo: al etiquetar los datos, el etiquetado del campo pertinente para el valor mejora la precisión de los pares clave-valor extraídos. Por ejemplo, para un valor de campo que contiene el identificador de proveedor, considere la posibilidad de asignar al campo el nombre supplier_id. Los nombres de campo deben estar en el idioma del documento.
Etiquetado de valores contiguos: los tokens de valor o las palabras de un campo deben ser:
- En una secuencia consecutiva en orden de lectura natural, sin intercalar con otros campos
- Estar en una región que no cubra ningún otro campo
Datos representativos: los valores de los casos de entrenamiento deben ser diversos y representativos. Por ejemplo, si a un campo se le asigna el nombre date, los valores de este campo deben ser una fecha. El valor sintético como una cadena aleatoria puede afectar al rendimiento del modelo.

Limitaciones actuales

El modelo neuronal personalizado no reconoce valores divididos entre límites de página.
Los tipos de campo no admitidos neuronales personalizados se omiten si se usa un conjunto de datos etiquetado para modelos de plantilla personalizados para entrenar un modelo neuronal personalizado.
Los modelos neuronales personalizados están limitados a 20 operaciones de compilación al mes. Abra una solicitud de soporte técnico si necesita aumentar el límite. Para obtener más información, consulte cuotas y los límites del servicio Documento de inteligencia.

Training a model

Los modelos neuronales personalizados están disponibles en los modelos v3.0 y posteriores.

Tipo de documento	API DE REST	SDK	Etiquetado y prueba de modelos
Documento personalizado	Documento de inteligencia 3.1	SDK de Documento de inteligencia	Document Intelligence Studio

La operación Build para entrenar el modelo es compatible con una nueva propiedad buildMode, para entrenar un modelo neuronal personalizado, establezca buildMode en neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Facturación

A partir de la versión 2024-07-31-preview, puede entrenar el modelo neuronal personalizado durante el estándar de más de 30 minutos. Las versiones anteriores están limitadas a 30 minutos por instancia de entrenamiento, con un total de 20 instancias de entrenamiento gratuitas al mes. Ahora con 2024-07-31-preview, puede recibir 10 horas de entrenamiento gratuito del modelo y entrenar un modelo durante hasta 10 horas.

Puede optar por dedicar las 10 horas libres a una única compilación de modelo con un gran conjunto de datos, o utilizarlas en varias compilaciones al ajustar el valor de duración máxima de la operación build mediante la especificación de maxTrainingHours:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Importante

Si desea entrenar modelos neuronales adicionales o entrenar modelos durante un período de tiempo más largo que supere las 10 horas, se aplican cargos de facturación. Para más información sobre los cargos de facturación, consulte la página de precios.
Puede optar por este servicio de entrenamiento de pago al establecer maxTrainingHours al número máximo de horas deseado. Las llamadas API sin presupuesto, pero con el conjunto maxTrainingHours como más de 10 horas producirán un error.
Dado que cada compilación tarda un tiempo diferente en función del tipo y el tamaño del conjunto de datos de entrenamiento, la facturación se calcula para el tiempo real dedicado al entrenamiento del modelo neuronal, con un mínimo de 30 minutos por trabajo de entrenamiento.
Esta característica de entrenamiento de pago le permite entrenar conjuntos de datos más grandes durante períodos más largos con flexibilidad en las horas de entrenamiento.


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Nota:

En el caso de las versiones de Documento de inteligencia v3.1 (2023-07-31) y v3.0 (2022-08-31), el entrenamiento de pago del modelo neuronal personalizado no está habilitado. En las dos versiones anteriores, obtendrá un máximo de 30 minutos de duración de entrenamiento por modelo. Si desea entrenar más de 20 instancias de modelo, puede crear una incidencia de soporte técnico de Azure para aumentar el límite de entrenamiento.

Facturación

En el caso de las versiones de Documento de inteligencia v3.1 (2023-07-31) and v3.0 (2022-08-31), recibe un máximo de 30 minutos de duración de entrenamiento por modelo y un máximo de 20 entrenamientos gratis al mes. Si desea entrenar más de 20 instancias de modelo, puede crear una incidencia de soporte técnico de Azure para aumentar el límite de entrenamiento. En Incidencia de soporte técnico de Azure, escriba en el campo summary: Increase Document Intelligence custom neural training (TPS) limit.

Importante

Al aumentar el límite de entrenamiento, tenga en cuenta que dos sesiones de entrenamiento de modelos neuronales personalizados se considerarán como una hora de entrenamiento. Para obtener más información sobre los precios para aumentar el número de sesiones de entrenamiento, consulte* la página de precios.
La incidencia de soporte técnico de Azure para el aumento del límite de entrenamiento solo se puede aplicar a nivel de recurso, no a nivel de suscripción. Puede solicitar un aumento del límite de entrenamiento para un único recurso de Documento de inteligencia al especificar el id. de recurso y la región en la incidencia de soporte técnico.

Si desea entrenar modelos durante más de 30 minutos, se admite el entrenamiento de pago con nuestra versión más reciente, v4.0 (2024-07-31-preview). Con la versión más reciente, puede entrenar el modelo durante más tiempo para procesar documentos más extensos. Para obtener más información sobre el entrenamiento de pago, consulte Billing v4.0.

Facturación

Importante

Al aumentar el límite de entrenamiento, tenga en cuenta que dos sesiones de entrenamiento de modelos neuronales personalizados se considerarán como una hora de entrenamiento. Para obtener más información sobre los precios para aumentar el número de sesiones de entrenamiento, consulte la página de precios.
La incidencia de soporte técnico de Azure para el aumento del límite de entrenamiento solo se puede aplicar a nivel de recurso, no a nivel de suscripción. Puede solicitar un aumento del límite de entrenamiento para un único recurso de Documento de inteligencia al especificar el id. de recurso y la región en la incidencia de soporte técnico.

Si desea entrenar modelos durante más de 30 minutos, se admite el entrenamiento de pago con nuestra versión más reciente, v4.0 (2024-07-31). Con la versión más reciente, puede entrenar el modelo durante más tiempo para procesar documentos más extensos. Para obtener más información sobre el entrenamiento de pago, consulte Billing v4.0.

Pasos siguientes

Aprenda a crear y componer modelos personalizados:

Creación de un modelo personalizadoCompose custom models

Compartir a través de

Modelo neuronal personalizado de Documento de inteligencia

Funcionalidades del modelo

Modo de compilación

Campos superpuestos

Campos superpuestos

Campos tabulares

Idiomas y configuraciones regionales compatibles

Regiones admitidas

Requisitos de entrada

procedimientos recomendados

Limitaciones actuales

Training a model

Facturación

Facturación

Facturación

Pasos siguientes

Comentarios

Recursos adicionales