Compartir a través de


Extracción de campos de documentos: modelo personalizado de IA generativa

Importante

  • Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
  • La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia es de manera predeterminada la versión 2024-07-31-preview de la API de REST y actualmente solo está disponible en las siguientes regiones de Azure.
    • Este de EE. UU.
    • Centro-Norte de EE. UU

El modelo de extracción de campos de documentos (IA generativa personalizada) utiliza la IA generativa para extraer campos especificados por el usuario de documentos a través de una amplia variedad de plantillas visuales. El modelo personalizado de IA generativa combina la potencia de la comprensión de documentos con los modelos de lenguaje de gran tamaño (LLM) y el rigor y el esquema de las capacidades de extracción personalizadas para crear un modelo de gran precisión en cuestión de minutos. Con este tipo de modelo generativo, puede empezar con un único documento y pasar por el proceso de adición de esquemas y creación de modelos con un etiquetado mínimo. El modelo generativo personalizado permite a los desarrolladores y a las empresas automatizar fácilmente los flujos de trabajo de extracción de datos con mayor precisión y rapidez para cualquier tipo de documento. El modelo personalizado de IA generativa destaca en la extracción de campos sencillos de documentos sin muestras etiquetadas. Sin embargo, proporcionar unas pocas muestras etiquetadas mejora la precisión de la extracción para los campos complejos y los campos definidos por el usuario, como las tablas. Puede utilizar la API de REST o las bibliotecas cliente para enviar un documento para su análisis con una compilación de modelos y utilizar el proceso generativo personalizado.

Ventajas del modelo personalizado de IA generativa

  • Etiquetado automático. Use modelos de lenguaje de gran tamaño (LLM) y extraiga campos especificados por el usuario para varios tipos de documentos y plantillas visuales.

  • Generalización mejorada. Extraiga datos de datos no estructurados y plantillas de documentos variables con mayor precisión.

  • Resultados exhaustivos. Localice los datos extraídos en los documentos. Los modelos generativos personalizados fundamentan los resultados cuando procede, garantizando que la respuesta se genera a partir del contenido y posibilitan los flujos de trabajo de revisión humana.

  • Puntuaciones de confianza. Use puntuaciones de confianza para cada campo extraído con el fin de filtrar los datos extraídos de alta calidad, maximizar el procesamiento directo de los documentos y minimizar los costes de revisión humana.

Casos de uso comunes

  • Administración del ciclo de vida del contrato. Cree un modelo generativo y extraiga los campos, cláusulas y obligaciones de una amplia gama de tipos de contrato.

  • Solicitudes de préstamos e hipotecas. La automatización del proceso de solicitud de préstamos e hipotecas habilita a bancos, prestamistas y entidades gubernamentales a procesar rápidamente la solicitud de préstamos e hipotecas.

  • Servicios financieros. Con el modelo personalizado de IA generativa, analice documentos complejos como informes financieros e informes de administración de recursos.

  • En administración de gastos. Es necesario analizar los recibos y facturas de varios minoristas y empresas para validar los gastos. El modelo personalizado de IA generativa puede extraer gastos de distintos formatos y documentos con plantillas variables.

Administración del conjunto de datos de entrenamiento

Con nuestros otros modelos personalizados, necesita mantener el conjunto de datos, agregar nuevos ejemplos y entrenar el modelo para mejorar la precisión. Con el modelo personalizado de IA generativa, los documentos etiquetados se transforman, se codifican y se almacenan como parte del modelo. Este proceso garantiza que el modelo pueda usar continuamente las muestras etiquetadas para mejorar la calidad de la extracción. Al igual que ocurre con otros modelos personalizados, los modelos se guardan en el almacenamiento de Microsoft y puede eliminarlos en cualquier momento.

El servicio Documento de inteligencia administra sus conjuntos de datos, pero sus documentos se almacenan cifrados y solo se usan para mejorar los resultados del modelo para su modelo específico. Puede usar una clave administrada por el servicio para cifrar sus datos o puede cifrarlos opcionalmente con una clave administrada por el cliente. El cambio en la administración y el ciclo de vida del conjunto de datos solo se aplica a los modelos generativos personalizados.

Funcionalidades del modelo

El modelo generativo personalizado de extracción de campos es compatible actualmente con la tabla dinámica con la 2024-07-31-preview y los siguientes campos:

Campos de formulario Marcas de selección Campos tabulares Firma Etiquetado de regiones Campos superpuestos
Compatible Admitido Compatible No compatible No compatible Compatible

Modo de compilación

La operación build custom model es compatible con los modelos personalizados de plantilla, neuronales y generativos, consulteModo de compilación de modelos personalizados. Estas son las diferencias en los tipos de modelo:

  • Los modelos personalizados de IA generativa pueden procesar documentos complejos con diversos formatos, plantillas variadas y datos no estructurados.

  • Los modelos neuronales personalizados son compatibles con el procesamiento de documentos complejos y también admiten más variaciones en la página para documentos estructurados y semiestructurados.

  • Los modelos de plantillas personalizados se basan en plantillas visuales coherentes, como cuestionarios o aplicaciones, para extraer los datos etiquetados.

Compatibilidad con idiomas y configuraciones regionales

La versión 2024-07-31-preview del modelo generativo personalizado de extracción de campos es compatible con la configuración regional en-us. Para más información sobre la compatibilidad de idiomas, vea. Compatibilidad de idiomas: modelos personalizados.

Regiones admitidas

La versión 2024-07-31-preview del modelo generativo personalizado de extracción de campos solo está disponible en "Este de EE. UU." y North Central US.  

Requisitos de entrada

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Leer
    Layout ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Documento general
    Creada previamente
    Extracción personalizada
    Clasificación personalizada ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a 8 puntos de texto a 150 puntos por pulgada (PPP).

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

    • Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.

    • Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para la versión 2024-07-31-preview y posteriores, el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.

Procedimientos recomendados

  • Datos representativos. Use documentos representativos que tengan como destino la distribución real de los datos y entrene un modelo generativo personalizado de alta calidad. Por ejemplo, si el documento de destino incluye campos tabulares parcialmente rellenados, agregue documentos de entrenamiento que consten de tablas parcialmente rellenadas. O si el campo se llama fecha, los valores para este campo deben ser una fecha, ya que las cadenas aleatorias pueden afectar al rendimiento del modelo.

  • Nomenclatura de campos. Elija un nombre de campo preciso que represente los valores del campo. Por ejemplo, para un valor de campo que contenga la Fecha de la transacción, considere la posibilidad de llamar al campo FechaTransacción en lugar de Date1.

  • Descripción del campo. Proporcione más información contextual en la descripción para ayudar a aclarar el campo que debe extraerse. Algunos ejemplos son la ubicación en el documento, las posibles etiquetas de campo a las que se puede asociar y las formas de diferenciarla de otros términos que podrían resultar ambiguos.

  • Variación. Los modelos generativos personalizados pueden generalizarse en diferentes plantillas de documento del mismo tipo de documento. Como procedimiento recomendado, cree un modelo único para todas las variaciones de un tipo de documento. Para mejorar la precisión y coherencia del modelo en la generación o el procesamiento de documentos, incluya una plantilla visual para cada tipo, en particular para aquellos que requieren un formato específico o elementos estructurales.

Guía de servicio

  • El modelo generativo personalizado de versión preliminar no es compatible actualmente con la tabla fija ni con la extracción de firmas.

  • La inferencia sobre el mismo documento podría arrojar resultados ligeramente diferentes entre llamadas y es una limitación conocida de los modelos de GPT actuales.

  • Las puntuaciones de confianza de cada campo pueden variar. Se recomienda realizar pruebas con los datos representativos para establecer los umbrales de confianza para su escenario.

  • La precisión, especialmente para los campos tabulares, es un reto y puede no ser perfecta en algunos casos.

  • La latencia de los documentos de gran tamaño es elevada y una limitación conocida en la versión preliminar.

  • Los modelos compuestos no admiten la extracción generativa personalizada.

Training a model

Los modelos generativos personalizados están disponibles con modelos en la versión 2024-07-31-preview y posteriores.

El build operation para entrenar el modelo admite la propiedad buildMode, para entrenar un modelo generativo personalizado, establezca el buildMode en generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Pasos siguientes