Modelos de procesamiento de documentos
Importante
- Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
- La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
- La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
- Centro-Norte de EE. UU
Este contenido se aplica a: v4.0 (versión preliminar) | Versiones anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Este contenido se aplica a: v3.1 (GA) | Última versión: v4.0 (versión preliminar) | Versiones anteriores: v3.0 v2.1
Este contenido se aplica a: v3.0 (GA) | Últimas versiones: v4.0 (versión preliminar) v3.1 | Versión anterior: v2.1
Este contenido se aplica a: v2.1 | Versión más reciente: v4.0 (versión preliminar)
Documento de inteligencia de Azure AI admite una amplia variedad de modelos que permiten agregar procesamiento inteligente de documentos a sus aplicaciones y flujos. Puede usar un modelo específico del dominio precompilado o entrenar un modelo personalizado adaptado a necesidades empresariales y casos de uso específicos. El Documento de inteligencia puede utilizarse con la API REST o las bibliotecas cliente Python, C#, Java y JavaScript.
Nota:
- Los proyectos de procesamiento de documentos que implican datos financieros, datos de salud protegidos, datos personales o datos altamente confidenciales requieren atención cuidadosa.
- Asegúrese de cumplir todos los requisitos nacionales o regionales y específicos del sector.
Introducción al modelo
En la tabla siguiente se muestran los modelos disponibles para cada versión preliminar actual y la API estable:
Tipo de modelo | Modelo | • 2024-02-29-preview • 2023-10-31-preview |
2023-07-31 (GA) | 2022-08-31 (GA) | v2.1 (GA) |
---|---|---|---|---|---|
Modelos de análisis de documentos | Leer | ✔️ | ✔️ | ✔️ | N/D |
Modelos de análisis de documentos | Diseño | ✔️ | ✔️ | ✔️ | ✔️ |
Modelos de análisis de documentos | Documento general | movido al diseño** | ✔️ | ✔️ | N/D |
Modelos creados previamente | Cheque bancario | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Extracto bancario | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Paystub | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Contrato | ✔️ | ✔️ | N/D | N/D |
Modelos creados previamente | Tarjeta de seguro de salud | ✔️ | ✔️ | ✔️ | N/D |
Modelos creados previamente | Documento de identificación | ✔️ | ✔️ | ✔️ | ✔️ |
Modelos creados previamente | Factura | ✔️ | ✔️ | ✔️ | ✔️ |
Modelos creados previamente | Recibo | ✔️ | ✔️ | ✔️ | ✔️ |
Modelos creados previamente | Impuestos unificados de Estados Unidos* | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | US 1040 Tax* | ✔️ | ✔️ | N/D | N/D |
Modelos creados previamente | US 1098 Tax | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | US 1099 Tax | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | US W2 Tax | ✔️ | ✔️ | ✔️ | N/D |
Modelos creados previamente | Hipoteca estadounidense 1003 URLA | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Hipoteca estadounidense 1004 URAR | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Hipoteca estadounidense 1005 | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | resumen de la hipoteca de EE. UU. 1008 | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Declaración de cierre de hipotecas estadounidenses | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Certificado de matrimonio | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Tarjeta de crédito | ✔️ | N/D | n/d | N/D |
Modelos creados previamente | Tarjeta de presentación | deprecated | ✔️ | ✔️ | ✔️ |
Modelos de clasificación personalizados | Clasificador personalizado | ✔️ | ✔️ | N/D | N/D |
Modelo generativo personalizado | Modelo generativo personalizado | ✔️ | N/D | n/d | N/D |
Modelos de extracción personalizados | Neuronal personalizado | ✔️ | ✔️ | ✔️ | N/D |
Modelo de extracción personalizado | Plantilla personalizada | ✔️ | ✔️ | ✔️ | ✔️ |
Modelos de extracción personalizados | Compuesto personalizado | ✔️ | ✔️ | ✔️ | ✔️ |
Todos los modelos | Funcionalidades de complementos | ✔️ | ✔️ | N/D | N/D |
* - Contiene submodelos. Consulte la información específica del modelo para ver las variaciones y subtipos admitidos.
Latencia
La latencia se define como la cantidad de tiempo que tarda un servidor de API en controlar y procesar una solicitud entrante y entregar la respuesta saliente al cliente. El tiempo para analizar un documento depende del tamaño (por ejemplo, el número de páginas) y del contenido asociado en cada página. La inteligencia de documentos es un servicio multiinquilino en el que la latencia de documentos similares es comparable pero no siempre idéntica. La variabilidad ocasional en la latencia y el rendimiento es inherente a cualquier servicio asincrónico, sin estado y basado en microservicios que procese imágenes y documentos grandes a escala. Aunque estamos escalando continuamente las funcionalidades de hardware y capacidad y escalado, es posible que todavía tenga problemas de latencia en tiempo de ejecución.
Capacidad del complemento | Complemento/gratis | • 2024-02-29-preview &bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true |
2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extracción de propiedades de fuente | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de fórmulas | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de alta resolución | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de códigos de barras | Gratuito | ✔️ | ✔️ | N/D | N/D |
Detección de idioma | Gratuito | ✔️ | ✔️ | N/D | N/D |
Pares clave-valor | Gratuito | ✔️ | N/D | n/d | N/D |
Campos de consulta | Complemento* | ✔️ | N/D | n/d | N/D |
PDF que se puede buscar | Complemento* | ✔️ | N/D | n/d | N/D |
Características del análisis de modelos
Id. de modelo | Extracción de contenido | Campos de consulta | Párrafos | Roles de párrafo | Marcas de selección | Tablas | Pares clave de valor | Idiomas | Códigos de barras | Análisis de documentos | Fórmulas* | Fuente de estilo* | Alta resolución* | PDF que se puede buscar |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
prebuilt-read | ✓ | ✓ | O | O | O | O | O | ✓ | ||||||
diseño preelaborado | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | |||
prebuilt-document | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | ||
prebuilt-businessCard | ✓ | ✓ | ✓ | |||||||||||
contrato precompilado | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | ✓ | O | O | ||||
prebuilt-healthInsuranceCard.us | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-idDocument | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-invoice | ✓ | ✓ | ✓ | ✓ | O | O | O | ✓ | O | O | O | |||
Recibo precompilado | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-marriageCertificate.us | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-creditCard | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-check.us | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-payStub.us | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-bankStatement | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1003 | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1004 | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1005 | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1008 | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.closingDisclosure | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w2 | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098 | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098E | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098T | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099(variaciones) | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1040(variations) | ✓ | ✓ | O | O | ✓ | O | O | O | ||||||
{ customModelName } | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O |
✓ - Habilitado
O: Opcional
* - Las características Premium incurren en costos adicionales
Complemento*: los campos de consulta tienen un precio diferente al de las otras características del complemento. Consulte Precios para obtener detalles.
Coordenadas de rectángulo de selección y polígono
Un rectángulo de selección (polygon
en v3.0 y versiones posteriores) es un rectángulo abstracto que rodea los elementos de texto de un documento que se usa como punto de referencia para la detección de objetos.
El cuadro delimitador especifica la posición usando un plano de coordenadas x e y presentado en una matriz de cuatro pares numéricos. Cada par representa una esquina del cuadro en el orden siguiente: superior izquierda, superior derecha, inferior derecha, inferior izquierda.
Las coordenadas de imagen se presentan en píxeles. Para un PDF, las coordenadas se presentan en pulgadas.
Para todos los modelos, excepto el modelo de tarjeta de presentación, Documento de inteligencia ahora admite funcionalidades de complemento para permitir un análisis más sofisticado. Estas funcionalidades opcionales se pueden habilitar y deshabilitar según el escenario de extracción de documentos. Hay cuatro funcionalidades de complemento disponibles para la versión de API 2023-07-31
(GA) y posteriores:
ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs
(2024-02-29-preview, 2023-10-31-preview)queryFields
(2024-02-29-preview, 2023-10-31-preview)Not available with the US.Tax models
searchablePDF
(2024-07-31-preview)Only available for Read Model
Compatibilidad con idiomas
Los modelos universales basados en aprendizaje profundo de Documento de inteligencia admiten muchos idiomas que pueden extraer texto multilingüe de sus imágenes y documentos, incluidas líneas de texto con idiomas mixtos. La compatibilidad con los idiomas varía según la funcionalidad del servicio de Documento de inteligencia. Para obtener una lista completa, consulte los siguientes artículos:
- Compatibilidad con lenguaje: modelos de análisis de documentos
- Compatibilidad con lenguajes: modelos precompilados
- Compatibilidad de idioma: modelos personalizados
Disponibilidad regional
Documento de inteligencia está disponible con carácter general en muchas de las más de 60 regiones de infraestructura global de Azure.
Para obtener más información, consulte nuestra página de geografías de Azure para ayudar a elegir la región que mejor se adapte a usted y a sus clientes.
Detalles del modelo
En esta sección se describe la salida que puede esperar de cada modelo. Puede ampliar la salida de la mayoría de los modelos con características de complementos.
Lectura de OCR
Read API analiza y extrae líneas, palabras, sus ubicaciones, idiomas detectados y estilo manuscrito si se detecta.
Documento de ejemplo procesado con Studio de Documento de inteligencia:
Análisis de diseño
El modelo de análisis diseño analiza y extrae texto, tablas, marcas de selección y otros elementos de estructura, como títulos, encabezados de sección, encabezados de página, pies de página, etc.
Documento de ejemplo procesado con Studio de Documento de inteligencia:
Tarjeta de seguro de salud
El modelo de tarjeta de seguro de salud combina funcionalidades de reconocimiento óptico de caracteres (OCR) eficaces con modelos de aprendizaje profundo para analizar y extraer información clave de imágenes de tarjetas de seguro de salud de EE. UU.
Tarjeta de seguro de salud de EE. UU. procesada con Studio de Documento de inteligencia:
Documentos fiscales de EE. UU.
Los modelos de documentos fiscales de Estados Unidos analizan y extraen campos clave y elementos de línea de un grupo seleccionado de documentos fiscales. La API admite el análisis de documentos fiscales estadounidenses en inglés de varios formatos y calidad, incluidas imágenes capturadas por teléfono, documentos digitales y PDF digitales. Actualmente se admiten los siguientes modelos:
Modelo | Descripción | ModelID |
---|---|---|
US Tax W-2 | Extracción de los detalles de compensación gravable. | prebuilt-tax.us.w2 |
US Tax 1040 | Extracción de los detalles de interés de la hipoteca. | prebuilt-tax.us.1040(Variaciones) |
US Tax 1098 | Extracción de los detalles de interés de la hipoteca. | prebuilt-tax.us.1098(Variaciones) |
US Tax 1099 | Extraiga los ingresos percibidos de fuentes distintas al empleador. | prebuilt-tax.us.1099(variaciones) |
Documento W-2 de ejemplo procesado con Studio de Documento de inteligencia:
Documentos hipotecarios estadounidenses
Los modelos de documentos de hipotecas estadounidenses analizan y extraen campos clave, incluidos la información sobre prestatarios, préstamos y propiedades de un grupo selecto de documentos de hipotecas. La API admite el análisis de documentos hipotecarios estadounidenses en inglés de diversos formatos y calidad, incluidas imágenes captadas por teléfono, documentos escaneados y PDF digitales. Actualmente se admiten los siguientes modelos:
Modelo | Descripción | ModelID |
---|---|---|
Contrato de licencia de usuario final (CLUF) 1003 | Extraer préstamo, prestatario, detalles de la propiedad. | prebuilt-mortgage.us.1003 |
Resumen del documento 1008 | Extraiga detalles de prestatario, vendedor, propiedad, hipoteca y suscripción. | prebuilt-mortgage.us.1008 |
Declaración de cierre | Extraiga detalles de cierre, costos de transacción y préstamo. | prebuilt-mortgage.us.closingDisclosure |
Certificado de matrimonio | Extraiga los detalles de la información del matrimonio para los solicitantes de préstamos conjuntos. | prebuilt-marriageCertificate |
US Tax W-2 | Extraiga los detalles de la compensación imponible para la verificación de los ingresos. | prebuilt-tax.us.w2 |
Documento de divulgación de cierre de ejemplo procesado mediante Documento de inteligencia Studio:
Contrato
El modelo de contrato analiza y extrae campos clave y elementos de línea de contratos, como las partes implicadas, jurisdicciones, identificador de contrato y título. El modelo admite actualmente documentos de contratos en inglés.
Contrato de ejemplo procesado con Document Intelligence Studio:
Factura
El modelo de factura automatiza el procesamiento de las facturas para extraer el nombre del cliente, la dirección de facturación, la fecha de vencimiento y el importe adeudado, las partidas y otros datos clave. Actualmente, el modelo admite facturas inglesas, españolas, alemanas, francesas, italianas, portuguesas y holandesas.
Recibo de ejemplo procesado con Studio de Documento de inteligencia:
Recibo
Use el modelo de recibos para escanear los recibos de ventas en busca del nombre del comerciante, fechas, partidas, cantidades y totales de los recibos impresos y escritos a mano. La versión 3.0 también admite el procesamiento de recibos de hotel de página única.
Recibo de ejemplo procesado con Studio de Documento de inteligencia:
Documento de identidad (id.)
Use el modelo de documento de identidad (ID) para procesar las licencias de conducir de EE. UU. (los 50 estados y el Distrito de Columbia) y las páginas biográficas de los pasaportes internacionales (excepto visados y otros documentos de viaje) para extraer los campos clave.
Licencia de conducir de EE. UU. de ejemplo procesada con Studio de Documento de inteligencia:
Certificado de matrimonio
Use el modelo de certificado de matrimonio para procesar los certificados de matrimonio estadounidenses y extraer los campos clave, incluidos los individuos, la fecha y la ubicación.
Muestra de certificado de matrimonio estadounidense procesado usando Documento de inteligencia Studio:
Tarjeta de crédito
Use el modelo de tarjeta de crédito para procesar tarjetas de crédito y débito para extraer campos clave.
Tarjeta de crédito de ejemplo procesada mediante Documento de inteligencia Studio:
Modelos personalizados
Los modelos personalizados se pueden clasificar ampliamente en dos tipos. Modelos de clasificación personalizados que admiten la clasificación de un "tipo de documento" y modelos de extracción personalizados que pueden extraer un esquema definido de un tipo de documento específico.
Los modelos de documentos personalizados analizan y extraen datos de formularios y documentos específicos de su empresa. Reconocen campos de formulario dentro de su contenido distintivo y extraen pares clave-valor y datos de tabla. Solo necesita un ejemplo del tipo de formulario para empezar.
La versión v3.0 y los modelos personalizados posteriores admiten la detección de firmas en plantillas personalizadas (formulario) y tablas entre páginas en modelos neuronales y de plantilla. detección de firmas busca la presencia de una firma, no la identidad de la persona que firma el documento. Si el modelo devuelve sin firmar para la detección de firmas, significa que el modelo no encontró una firma en el campo definido.
Plantilla personalizada de ejemplo procesada con Studio de Documento de inteligencia:
Extracción personalizada
Los modelos de extracción personalizados pueden ser de uno de estos dos tipos: modelo de plantilla personalizado o modelo neuronal personalizado. Para crear un modelo de extracción personalizado, etiquete un conjunto de datos de documentos con los valores que desea extraer y entrene el modelo en el conjunto de datos etiquetado. Solo necesita cinco ejemplos del mismo tipo de formulario o documento para empezar.
Extracción personalizada de ejemplo procesada con Studio de Documento de inteligencia:
Clasificador personalizado
El modelo de clasificación personalizado permite identificar el tipo de documento antes de invocar el modelo de extracción. El modelo de clasificación está disponible a partir de la API 2023-07-31 (GA)
. El entrenamiento de un modelo de clasificación personalizado requiere al menos dos clases distintas y un mínimo de cinco muestras por clase.
Modelos compuestos
Un modelo compuesto se crea tomando una colección de modelos personalizados y asignándolos a un único modelo creado a partir de los tipos de formulario. Puede asignar varios modelos personalizados a un modelo compuesto llamado con un único identificador de modelo. Puede asignar hasta 200 modelos personalizados entrenados para un único modelo compuesto.
Ventana de diálogo de modelos compuestos en Studio de Documento de inteligencia:
Requisitos de entrada
Formatos de archivos admitidos:
Modelo PDF Imagen: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLeer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento general ✔ ✔ Creada previamente ✔ ✔ Extracción personalizada ✔ ✔ Clasificación personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de
4
MB para el nivel gratuito (F0).Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a
8
puntos de texto a 150 puntos por pulgada (PPP).Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y
1
GB para el modelo neuronal.Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de
1
GB con un máximo de 10 000 páginas. Para 2024-07-31-preview y versiones posteriores, el tamaño total de los datos de entrenamiento es de2
GB con un máximo de 10 000 páginas.
Nota:
La herramienta de etiquetado de ejemplo no admite el formato de archivo BMP. Se trata de una limitación de la herramienta, no del servicio de Documento de inteligencia.
Migración de versión
Obtenga información sobre cómo usar Documento de inteligencia v3.0 en las aplicaciones siguiendo nuestra guía de migración de Documento de inteligencia v3.1
Modelo | Descripción |
---|---|
Análisis de documentos | |
Diseño | Extrae texto e información de diseño de los documentos. |
Creada previamente | |
Factura | Extrae información clave de facturas en inglés y español. |
Recibo | Extrae información clave de recibos en inglés. |
Documento de identificación | Extrae información clave de permisos de conducir de EE. UU. y pasaportes internacionales. |
Tarjeta de presentación | Extrae información clave de tarjetas de presentación en inglés. |
Personalizada | |
Personalizada | Extrae datos de formularios y documentos específicos de la empresa. Los modelos personalizados se entrenan para sus distintos datos y casos de uso. |
Compuesto | Crea una colección de modelos personalizados y los asigna a un único modelo creado a partir de los tipos de formulario. |
Layout
La API de Diseño analiza y extrae texto, tablas y encabezados, marcas de selección e información de estructura de documentos.
Ejemplo de documento procesado con la herramienta de etiquetado de ejemplo:
Factura
El modelo de factura analiza y extrae información clave de facturas de ventas. La API analiza las facturas en varios formatos y extrae información clave, como el nombre del cliente, la dirección de facturación, la fecha de vencimiento y el importe a pagar.
Ejemplo de factura procesada con la herramienta de etiquetado de ejemplo:
Recibo
- El modelo de recibo analiza y extrae información clave de recibos de ventas impresos y manuscritos.
Recepción de muestras procesada con la herramienta de etiquetado de ejemplo:
Documento de identificación
El modelo de documento de id. analiza y extrae información clave de los siguientes documentos:
Licencias de conducir de EE. UU. (los 50 estados y el Distrito de Columbia)
Páginas biográficas de pasaportes internacionales (sin incluir visa y otros documentos de viaje). La API analiza documentos de identidad y extractos
Ejemplo de un permiso de conducir de EE. UU. procesado con la herramienta de etiquetado de ejemplo:
Tarjeta de presentación
El modelo de tarjeta de presentación analiza y extrae información clave de las imágenes de las tarjetas de presentación.
Ejemplo de una tarjeta de presentación procesada con la herramienta de etiquetado de ejemplo:
Personalizado
- Los modelos personalizados analizan y extraen datos de formularios y documentos específicos de la empresa. La API es un programa de aprendizaje automático entrenado para reconocer campos de formulario dentro del contenido distintivo y extraer pares clave-valor y datos de tablas. Solo necesita cinco ejemplos del mismo tipo de formulario para empezar y el modelo personalizado se puede entrenar con o sin conjuntos de datos etiquetados.
Procesamiento de modelos personalizados mediante la herramienta de etiquetado de ejemplo:
Modelo personalizado compuesto
Un modelo compuesto se crea tomando una colección de modelos personalizados y asignándolos a un único modelo creado a partir de los tipos de formulario. Puede asignar varios modelos personalizados a un modelo compuesto llamado con un único identificador de modelo. Puede asignar hasta 100 modelos personalizados entrenados a un único modelo compuesto.
Ventana de diálogo del modelo compuesto con la herramienta de etiquetado de ejemplo:
Extracción de datos del modelo
Modelo | Extracción de texto | Detección de idioma | Marcas de selección | Tablas | Párrafos | Roles de párrafo | Pares clave-valor | Fields |
---|---|---|---|---|---|---|---|---|
Diseño | ✓ | ✓ | ✓ | ✓ | ✓ | |||
Factura | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
Recibo | ✓ | ✓ | ✓ | |||||
Documento de identificación | ✓ | ✓ | ✓ | |||||
Tarjeta de presentación | ✓ | ✓ | ✓ | |||||
Formulario personalizado | ✓ | ✓ | ✓ | ✓ | ✓ |
Requisitos de entrada
Formatos de archivos admitidos:
Modelo PDF Imagen: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLeer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento general ✔ ✔ Creada previamente ✔ ✔ Extracción personalizada ✔ ✔ Clasificación personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de
4
MB para el nivel gratuito (F0).Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a
8
puntos de texto a 150 puntos por pulgada (PPP).Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y
1
GB para el modelo neuronal.Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de
1
GB con un máximo de 10 000 páginas. Para 2024-07-31-preview y versiones posteriores, el tamaño total de los datos de entrenamiento es de2
GB con un máximo de 10 000 páginas.
Nota:
La herramienta de etiquetado de ejemplo no admite el formato de archivo BMP. Se trata de una limitación de la herramienta, no del servicio de Documento de inteligencia.
Migración de versión
Puede obtener información sobre cómo usar Documento de inteligencia v3.0 en las aplicaciones siguiendo nuestra guía de migración de Documento de inteligencia v3.1
Pasos siguientes
Pruebe a procesar sus propios formularios y documentos con Document Intelligence Studio.
Complete el inicio rápido de Documento de inteligencia y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.
Pruebe a procesar sus propios formularios y documentos con la Herramienta de etiquetado de muestras de Documento de inteligencia.
Complete el inicio rápido de Documento de inteligencia y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.