Modelo neuronal personalizado de Documento de inteligencia

Importante

  • Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
  • Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
  • La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
  • La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
  • Este de EE. UU.
  • Oeste de EE. UU. 2
  • Oeste de Europa

Este contenido se aplica a:marca de verificaciónv4.0 (versión preliminar) | Versiones anteriores:marca de verificación azulv3.1 (GA)marca de verificación azulv3.0 (GA)

Este contenido se aplica a:marca de verificaciónv3.1 (GA) | Versión más reciente:marca de verificación púrpurav4.0 (versión preliminar) | Versiones anteriores:marca de verificación azulv3.0

Este contenido se aplica a:marca de verificaciónv3.0 (GA) | Versiones más recientes:marca de verificación púrpurav4.0 (versión preliminar)marca de verificación púrpurav3.1

Los modelos de documentos neuronales personalizados o modelos neuronales son un tipo de modelo de aprendizaje profundo que combina características de diseño e idioma para extraer con precisión campos etiquetados de documentos. El modelo neuronal personalizado base se entrena en varios tipos de documentos que lo hacen adecuado para entrenarse para extraer campos de documentos estructurados, semiestructurados y no estructurados. Los modelos neuronales personalizados están disponibles en los modelos v3.0 y versiones posteriores La tabla siguiente enumera los tipos de documento comunes para cada categoría:

Documentos Ejemplos
Estructurados encuestas, cuestionarios
Semiestructurados facturas, pedidos de compra
Datos no estructurados contratos, letras

Los modelos neuronales personalizados comparten el mismo formato y la misma estrategia de etiquetado que los modelos de plantilla personalizados. Actualmente, los modelos neuronales personalizados solo admiten un subconjunto de los tipos de campo admitidos por los modelos de plantilla personalizados.

Funcionalidades del modelo

Importante

A partir de la versión de la API 2024-02-29-previewlos modelos neuronales personalizados agregan compatibilidad con los campos superpuestos y la confianza de las celdas de tabla.

Actualmente, los modelos neuronales personalizados solo admiten pares clave-valor y marcas de selección y campos estructurados (tablas). Las versiones futuras incluyen compatibilidad con firmas.

Campos de formulario Marcas de selección Campos tabulares Firma Region Campos superpuestos
Compatible Admitido Compatible No compatible Compatible 1 Compatible 2

1 Las etiquetas de región de los modelos neuronales personalizados usan los resultados de la API de diseño para la región especificada. Esta característica es diferente de los modelos de plantilla en los que, si no hay ningún valor presente, el texto se genera en tiempo de entrenamiento. 2 Campos superpuestos se admiten a partir de la versión de la API de REST 2024-02-29-preview. Los campos superpuestos tienen algunos límites. Para obtener más información, consultecampos superpuestos.

Modo de compilación

La operación de creación de modelos personalizados es compatible con modelos personalizados de plantilla y neuronales. Las versiones anteriores de la API de REST y las bibliotecas de cliente solo admitía un modo de compilación único que ahora se conoce como laplantilla modo.

Los modelos neuronales admiten documentos que tienen la misma información, pero estructuras de página diferentes. Ejemplos de estos documentos incluyen formularios W2 de Estados Unidos, que comparten la misma información, pero pueden variar en apariencia entre empresas. Para más información, consulteModo de compilación de modelos personalizados.

Idiomas y configuraciones regionales compatibles

Consulte nuestra página de Compatibilidad de idiomas: modelos personalizados para obtener una lista completa de los idiomas admitidos.

Campos superpuestos

Con el lanzamiento de versiones de API 2024-02-29-versión preliminar y versiones posteriores, los modelos neuronales personalizados admitirán campos superpuestos:

Para usar los campos superpuestos, el conjunto de datos debe contener al menos un ejemplo con la superposición esperada. Para etiquetar una superposición, use la etiqueta de región para designar cada uno de los intervalos de contenido (con la superposición) para cada campo. Al etiquetar una superposición con la selección de campos (resaltado de un valor) se producirá un error en el estudio, ya que el etiquetado de regiones es la única herramienta de etiquetado compatible para indicar superposiciones de campo. El soporte con superposición incluye:

  • Superposición completa. El mismo conjunto de tokens se etiqueta para dos campos diferentes.
  • Superposición parcial. Algunos tokens pertenecen a ambos campos, pero hay tokens que solo forman parte de un campo u otro.

Los campos superpuestos tienen algunos límites:

  • Cualquier token o palabra solo se puede etiquetar como dos campos.
  • Los campos superpuestos de una tabla no pueden abarcar filas de tabla.
  • Los campos superpuestos solo se pueden reconocer si al menos un ejemplo del conjunto de datos contiene etiquetas superpuestas para esos campos.

Para usar campos superpuestos, etiquete el conjunto de datos con las superposiciones y entrene el modelo con la versión de la API 2024-02-29-preview o posterior.

Los campos tabulares agregan confianza de tabla, fila y celda

Con el lanzamiento de las versiones de API 2022-06-30-preview, los modelos neuronales personalizados admitirán campos tabulares (tablas):

  • Los modelos entrenados con la versión de API 2022-08-31 o posterior aceptarán etiquetas de campo tabulares.
  • Los documentos analizados con modelos neuronales personalizados mediante la versión de API 2022-06-30-preview o posterior generarán campos tabulares agregados en las tablas.
  • Los resultados se pueden encontrar en la matriz analyzeResult del objeto documents que se devuelve después de una operación de análisis.

Los campos tabulares admiten tablas entre páginas de forma predeterminada:

  • Para etiquetar una tabla que abarca varias páginas, etiquete cada fila de la tabla en las distintas páginas de una sola tabla.
  • Como procedimiento recomendado, asegúrese de que el conjunto de datos contiene algunas muestras de las variaciones esperadas. Por ejemplo, incluya ejemplos en los que toda la tabla se encuentra en una sola página y donde las tablas abarcan dos o más páginas.

Los campos tabulares también son útiles al extraer información repetida dentro de un documento que no se reconoce como una tabla. Por ejemplo, una sección repetida de experiencias de trabajo en un currículum se puede etiquetar y extraer como un campo tabular.

Los campos tabulares proporcionan confianza de tabla, fila y celdaa partir de la 2024-02-29-preview API:

  • Las tablas fijas o dinámicas agregan soporte de confianza con los siguientes elementos:

    • Confianza de la tabla, una medida de la precisión en que se reconoce toda la tabla.
    • Confianza de fila, medida de reconocimiento de una fila individual.
    • Confianza de las celdas, medida del reconocimiento de una celda individual.
  • El enfoque recomendado consiste en revisar la precisión de forma descendente a partir de la tabla en primer lugar, seguida de la fila y, a continuación, de la celda.

Consulte puntuaciones de confianza y precisión para obtener más información sobre la tabla, la fila y la confianza de las celdas.

Regiones admitidas

A partir del 18 de octubre de 2022, el entrenamiento del modelo neuronal personalizado de Documento de inteligencia solo estará disponible en las regiones de Azure siguientes, hasta nuevo aviso:

  • Este de Australia
  • Sur de Brasil
  • Centro de Canadá
  • Centro de la India
  • Centro de EE. UU.
  • Este de Asia
  • Este de EE. UU.
  • Este de EE. UU. 2
  • Centro de Francia
  • Japón Oriental
  • Centro-sur de EE. UU.
  • Sudeste de Asia
  • Sur de Reino Unido 2
  • Oeste de Europa
  • Oeste de EE. UU. 2
  • US Gov: Arizona
  • US Gov - Virginia

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Sugerencia

Puede copiar un modelo entrenado en una de las regiones enumeradas en cualquier otra región y usarlo en consecuencia.

Use la API de REST o Estudio de Documento de inteligencia para copiar un modelo en otra región.

Requisitos de entrada

  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx) y HTML
    Leer
    Layout ✔ (2024-02-29-versión preliminar, 2023-10-31-versión preliminar o posterior)
    Documento general
    Creada previamente
    Neuronal personalizado

    ✱ Los archivos de Microsoft Office no se admiten actualmente para otros modelos o versiones.

  • Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente 8texto de punto a 150 puntos por pulgada.

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

  • Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.

  • Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

procedimientos recomendados

Los modelos neuronales personalizados difieren de los modelos de plantilla personalizados de varias maneras diferentes. El modelo de plantilla personalizado se basa en una plantilla visual coherente para extraer los datos etiquetados. Los modelos neuronales personalizados admiten documentos estructurados, semiestructurados y no estructurados para extraer campos. Al elegir entre los dos tipos de modelos, comience con un modelo neuronal y pruebe para determinar si es compatible con sus necesidades funcionales.

Gestión de las variaciones

Los modelos neuronales personalizados se pueden generalizar en los diferentes formatos de un único tipo de documento. Como procedimiento recomendado, cree un modelo único para todas las variaciones de un tipo de documento. Agregue al menos cinco ejemplos etiquetados de cada una de las distintas variaciones al conjunto de datos de entrenamiento.

Nomenclatura de campo

Al etiquetar los datos, el etiquetado del campo pertinente para el valor mejora la precisión de los pares clave-valor extraídos. Por ejemplo, para un valor de campo que contiene el identificador de proveedor, considere la posibilidad de asignar al campo el nombre supplier_id. Los nombres de campo deben estar en el idioma del documento.

Etiquetado de valores contiguos

Los tokens de valor o palabras de un campo deben ser:

  • En una secuencia consecutiva en orden de lectura natural, sin intercalar con otros campos
  • Estar en una región que no cubra ningún otro campo

Datos representativos

Los valores de los casos de entrenamiento deben ser diversos y representativos. Por ejemplo, si a un campo se le asigna el nombre date, los valores de este campo deben ser una fecha. El valor sintético como una cadena aleatoria puede afectar al rendimiento del modelo.

Limitaciones actuales

  • El modelo neuronal personalizado no reconoce valores divididos entre límites de página.
  • Los tipos de campo no admitidos neuronales personalizados se omiten si se usa un conjunto de datos etiquetado para modelos de plantilla personalizados para entrenar un modelo neuronal personalizado.
  • Los modelos neuronales personalizados están limitados a 20 operaciones de compilación al mes. Abra una solicitud de soporte técnico si necesita aumentar el límite. Para obtener más información, consulte cuotas y los límites del servicio Documento de inteligencia.

Training a model

Los modelos neuronales personalizados están disponibles en los modelos v3.0 y posteriores.

Tipo de documento API DE REST SDK Etiquetado y prueba de modelos
Documento personalizado Documento de inteligencia 3.1 SDK de Documento de inteligencia Document Intelligence Studio

La operación de compilación para entrenar el modelo admite una nueva propiedad buildMode; para entrenar un modelo neuronal personalizado, establezca buildMode en neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Pasos siguientes

Aprenda a crear y componer modelos personalizados: