Modelo de lectura de Documento de inteligencia

Artículo
03/12/2024

Importante

Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
Este de EE. UU.
Oeste de EE. UU. 2
Oeste de Europa

Este contenido se aplica a:v4.0 (versión preliminar) | Versiones anteriores:v3.1 (GA)v3.0 (GA)

Este contenido se aplica a:v3.1 (GA) | Versión más reciente:v4.0 (versión preliminar) | Versiones anteriores:v3.0

Este contenido se aplica a:v3.0 (GA) | Versiones más recientes:v4.0 (versión preliminar)v3.1

Nota:

Para extraer texto de imágenes externas, como etiquetas, señales de calle y pósteres, use la característica Lectura de Análisis de imágenes de Azure AI v4.0 optimizada para imágenes generales que no son de documento con una API sincrónica mejorada para el rendimiento que facilita la inserción de OCR en los escenarios de experiencia del usuario.

El modelo de Reconocimiento óptico de caracteres (OCR) de Inteligencia de documentos se ejecuta con una resolución superior que la del modelo de lectura de Visión de Azure AI y extrae texto impreso y manuscrito de documentos PDF e imágenes escaneadas. También incluye compatibilidad para extraer texto de documentos de Microsoft Word, Excel, PowerPoint y documentos HTML. Detecta párrafos, líneas de texto, palabras, ubicaciones e idiomas. El modelo de Lectura es el motor de OCR subyacente para otros modelos precompilados de Inteligencia de documentos, como Diseño, Documento general, Factura, Recibo, Documento de identidad (ID), Tarjeta de seguro médico, W2, además de modelos personalizados.

¿Qué es OCR para documentos?

El reconocimiento óptico de caracteres (OCR) para documentos está optimizado para documentos con mucho texto en varios formatos de archivo e idiomas globales. Incluye características como el escaneo de imágenes de documentos con una mayor resolución para un mejor control del texto más pequeño y más denso; detección de párrafos; y administración de formularios rellenables. La funcionalidad OCR también incluye escenarios avanzados, como cuadros de caracteres únicos y extracción precisa de campos clave que se encuentran habitualmente en facturas, recibos y otros escenarios creados previamente.

Opciones de desarrollo

Documento de inteligencia v4.0 (2024-02-29-preview, 2023-10-31-preview) admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Documento de inteligencia v3.1 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Documento de inteligencia v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Requisitos de entrada

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

Formatos de archivos admitidos:

Modelo	PDF	Imagen: JPEG/JPG, PNG, BMP, TIFF, HEIF	Microsoft Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX) y HTML
Leer	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview)
Documento general	✔	✔
Creada previamente	✔	✔
Extracción personalizada	✔	✔
Clasificación personalizada	✔	✔	✔ (2024-02-29-preview)

En el caso de PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un 8 texto de 150 puntos a 150 puntos por pulgada (DPI).
Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
- Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.
- Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

Introducción al modelo de lectura

Intente extraer texto de formularios y documentos mediante Inteligencia de documentos Studio. Necesitará los recursos siguientes:

Una suscripción a Azure (se puede crear de forma gratuita).
Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Nota:

Actualmente, Inteligencia de documentos Studio no admite formatos de archivo Microsoft Word, Excel, PowerPoint y HTML.

Documento de ejemplo procesado con Inteligencia de documentos Studio

Captura de pantalla del proceso de Lectura en Inteligencia de documentos Studio.

En la página principal de Document Intelligence Studio, seleccione Read.
Puede analizar el documento de ejemplo o cargar archivos propios.
Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

Pruebe Document Intelligence Studio.

Idiomas y configuraciones regionales compatibles

Para ver una lista completa de los idiomas admitidos, consulte nuestra página de Idiomas admitidos: modelos de análisis de documentos.

Extracción de datos

Nota:

Los archivos de Microsoft Word y HTML se admiten a partir de la versión 3.1. En comparación con los archivos PDF y las imágenes, no se admiten las siguientes características:

No hay ángulo, ancho/alto ni unidad en todos los objetos de página.
En los objetos detectados no hay polígonos delimitadores ni regiones delimitadoras.
El intervalo de páginas (pages) no se admite como parámetro.
No hay objetos lines.

Páginas

La colección de páginas es una lista de páginas del documento. Cada página se representa secuencialmente dentro del documento e incluye el ángulo de orientación, que indica si la página está girada, así como su ancho y alto (dimensiones en píxeles). Las unidades de página de la salida del modelo se calculan como se muestra:

Formato de archivo	Unidad de página calculada	Páginas totales
Imágenes (JPEG/JPG, PNG, BMP y HEIF)	Cada imagen = 1 unidad de página	Total de imágenes
PDF	Cada página del PDF = 1 unidad de página	Total de páginas en el PDF
TIFF	Cada imagen del TIFF = 1 unidad de página	Total de imágenes en el TIFF
Word (DOCX)	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una
Excel (XLSX)	Cada hoja de cálculo = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de hojas de cálculo
PowerPoint (PPTX)	Cada diapositiva = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de diapositivas
HTML	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Selección de páginas para la extracción de texto

En el caso de documentos PDF de varias páginas de gran tamaño, use el parámetro de consulta pages para indicar números de página o intervalos de páginas específicos para la extracción de texto.

Párrafos

El modelo de lectura de OCR en Inteligencia de documentos extrae todos los bloques de texto identificados de la colección paragraphs como objeto de nivel superior en analyzeResults. Cada entrada de esta colección representa un bloque de texto e incluye el texto extraído como content y las coordenadas polygon delimitadoras. La información de span apunta al fragmento de texto dentro de la propiedad content de nivel superior que contiene el texto completo del documento.

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Texto, líneas y palabras

El modelo de lectura de OCR extrae texto de estilo impreso y manuscrito como lines y words. El modelo genera coordenadas polygon delimitadoras y confidence para las palabras extraídas. La colección styles incluye cualquier estilo manuscrito para las líneas si se detectan, junto con los intervalos que apuntan al texto asociado. Esta característica se aplica a los idiomas manuscritos admitidos.

En el caso de Microsoft Word, Excel, PowerPoint y HTML, a partir de la versión 3.1 del modelo de lectura de Document Intelligence todo el texto insertado se extrae tal como está. Los textos se extraen en forma de palabras y párrafos. No se admiten las imágenes insertadas.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Estilo manuscrito para líneas de texto

La respuesta incluye la clasificación de si cada línea de texto es de estilo manuscrito o no, junto con una puntuación de confianza. Para obtener más información, consultecompatibilidad de idioma manuscrito. En el ejemplo siguiente se muestra un ejemplo de fragmento JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Si ha habilitado la funcionalidad del complemento de estilo o fuente, también obtendrá el resultado de fuente y estilo como parte del objeto styles.

Pasos siguientes

Complete un inicio rápido de Inteligencia de documentos:

Explorar nuestra API de REST:

Document Intelligence API, versión 4.0

Modelo de lectura de Documento de inteligencia

¿Qué es OCR para documentos?

Opciones de desarrollo

Requisitos de entrada

Introducción al modelo de lectura

Idiomas y configuraciones regionales compatibles

Extracción de datos

Páginas

Selección de páginas para la extracción de texto

Párrafos

Texto, líneas y palabras

Estilo manuscrito para líneas de texto

Pasos siguientes

Recursos adicionales