Compartir a través de


Modelo de contrato de Document Intelligence

Importante

  • Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
  • Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
  • La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
  • La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
  • Este de EE. UU.
  • Oeste de EE. UU. 2
  • Oeste de Europa

Este contenido se aplica a:marca de verificaciónv4.0 (versión preliminar) | Versión anterior:marca de verificación azulv3.1 (GA)

Este contenido se aplica a:marca de verificaciónv3.1 (GA) | Versión más reciente:marca de verificación púrpurav4.0 (versión preliminar)

El modelo de contrato de Document Intelligence usa eficaces funcionalidades de reconocimiento óptico de caracteres (OCR) para analizar y extraer campos clave y elementos de línea de un grupo seleccionado de entidades de contrato importantes. Los contratos pueden ser de distintos formatos y tener diferentes grados de calidad, lo que incluye imágenes capturadas por un teléfono, documentos digitalizados y archivos PDF digitales. La API analiza el texto del documento; extrae información clave como partes, jurisdicciones, id. de contrato y título; y devuelve una representación de datos JSON estructurada. El modelo admite actualmente formatos de documentos en inglés.

Procesamiento automatizado de contratos

El procesamiento automatizado de contratos es el proceso de extracción de los campos clave de los contratos a partir de los documentos. Históricamente, el proceso de análisis de contratos se realiza manualmente y, por tanto, lleva mucho tiempo. La extracción precisa de los datos clave de los contratos suele ser la primera y uno de los pasos más críticos del proceso de automatización de contratos.

Opciones de desarrollo

Documento de inteligencia v4.0 (2024-02-29-preview) admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelo de contrato Estudio de Documento de inteligencia
API de REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
prebuilt-contract

Documento de inteligencia v3.1 es compatible con las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelo de contrato Estudio de Documento de inteligencia
API de REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
prebuilt-contract

Documento de inteligencia v3.0 es compatible con las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelo de contrato Estudio de Documento de inteligencia
API de REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
prebuilt-contract

Requisitos de entrada

  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) y HTML
    Leer
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Documento general
    Creada previamente
    Extracción personalizada
    Clasificación personalizada ✔ (2024-02-29-preview)
  • En el caso de PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un 8 texto de 150 puntos a 150 puntos por pulgada (DPI).

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

    • Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.

    • Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

Pruebar extracción de datos de documentos de contrato

Vea cómo se extraen los datos, incluida la información del cliente, los detalles del proveedor y los elementos de línea, de los contratos. Tendrá que supervisar los recursos siguientes:

  • Una suscripción a Azure: puede crear una cuenta gratuita.

  • Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Estudio del documento de inteligencia

  1. En la página principal de Documento de inteligencia Studio, seleccione Documentos fiscales.

  2. Puede analizar un documento fiscal de ejemplo o cargar sus propios archivos.

  3. Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

    Captura de pantalla de los botones Ejecutar análisis y Analizar opciones en Document Intelligence Studio.

Idiomas y configuraciones regionales compatibles

Vea nuestra página de Compatibilidad de idiomas: modelos precompilados para obtener una lista completa de los idiomas admitidos.

Extracción de campos

A continuación se muestran los campos extraídos de un contrato en la respuesta de salida JSON.

Nombre Escribir Descripción Salida de ejemplo
Título String Título del contrato Acuerdo de servicio
ContractId String Título del contrato AB12956
Entidades Matriz Lista de partes legales
ExecutionDate Date Fecha en la que todas las partes han firmado y acordado el contrato On this twenty-third day of February two thousand and twenty two
ExpirationDate Date Fecha en la que el contrato termina de estar en vigor Un año
RenewalDate Date Fecha en la que se debe renovar el contrato On this twenty-third day of February two thousand and twenty two
Jurisdicciones Matriz Lista de jurisdicciones

Los pares de clave/valor y los elementos de línea del contrato extraídos se encuentran en la sección documentResults de la salida JSON.

Pasos siguientes