Modelo de lectura de Documento de inteligencia

Artikulua
10/18/2024

Importante

Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
- Centro-Norte de EE. UU

Este contenido se aplica a: v4.0 (versión preliminar) | Versiones anteriores: v3.1 (GA) v3.0 (GA)

Nota:

Para extraer texto de imágenes externas, como etiquetas, señales de calle y pósteres, use la característica Lectura de Análisis de imágenes de Azure AI v4.0 optimizada para imágenes generales que no son de documento con una API sincrónica mejorada para el rendimiento que facilita la inserción de OCR en los escenarios de experiencia del usuario.

El modelo de Reconocimiento óptico de caracteres (OCR) de Inteligencia de documentos se ejecuta con una resolución superior que la del modelo de lectura de Visión de Azure AI y extrae texto impreso y manuscrito de documentos PDF e imágenes escaneadas. También incluye compatibilidad para extraer texto de documentos de Microsoft Word, Excel, PowerPoint y documentos HTML. Detecta párrafos, líneas de texto, palabras, ubicaciones e idiomas. El modelo de Lectura es el motor de OCR subyacente para otros modelos precompilados de Inteligencia de documentos, como Diseño, Documento general, Factura, Recibo, Documento de identidad (ID), Tarjeta de seguro médico, W2, además de modelos personalizados.

¿Qué es el reconocimiento óptico de caracteres?

El reconocimiento óptico de caracteres (OCR) para documentos está optimizado para documentos con mucho texto en varios formatos de archivo e idiomas globales. Incluye características como el escaneo de imágenes de documentos con una mayor resolución para un mejor control del texto más pequeño y más denso; detección de párrafos; y administración de formularios rellenables. La funcionalidad OCR también incluye escenarios avanzados, como cuadros de caracteres únicos y extracción precisa de campos clave que se encuentran habitualmente en facturas, recibos y otros escenarios creados previamente.

Opciones de desarrollo (v4)

Documento de inteligencia v4.0 (2024-07-31-preview) admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Requisitos de entrada (v4)

Formatos de archivos admitidos:

Modelo	PDF	Imagen: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Leer	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Documento general	✔	✔
Creada previamente	✔	✔
Extracción personalizada	✔	✔
Clasificación personalizada	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a 8 puntos de texto a 150 puntos por pulgada (PPP).
Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
- Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
- Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-07-31-preview y versiones posteriores, el tamaño total de los datos de entrenamiento se 2 GB con un máximo de 10 000 páginas.

Introducción al modelo de lectura (v4)

Intente extraer texto de formularios y documentos mediante Inteligencia de documentos Studio. Necesitará los recursos siguientes:

Una suscripción a Azure (se puede crear de forma gratuita).
Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Nota:

Actualmente, Inteligencia de documentos Studio no admite formatos de archivo Microsoft Word, Excel, PowerPoint y HTML.

Documento de ejemplo procesado con Inteligencia de documentos Studio

Captura de pantalla del proceso de Lectura en Inteligencia de documentos Studio.

En la página principal de Estudio de Documento de inteligencia, seleccione Lectura.
Puede analizar el documento de ejemplo o cargar archivos propios.
Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

Pruebe Document Intelligence Studio.

Idiomas y configuraciones regionales admitidos (v4)

Para ver una lista completa de los idiomas admitidos, consulte nuestra página de Idiomas admitidos: modelos de análisis de documentos.

Extracción de datos (v4)

Nota:

Microsoft Word y el archivo HTML se admiten en v4.0. En comparación con los archivos PDF y las imágenes, no se admiten las siguientes características:

No hay ángulo, ancho/alto ni unidad en todos los objetos de página.
En los objetos detectados no hay polígonos delimitadores ni regiones delimitadoras.
El intervalo de páginas (pages) no se admite como parámetro.
No hay objetos lines.

Archivos PDF que se pueden buscar

La funcionalidad de PDF utilizable en búsquedas le permite convertir un PDF analógico, como los archivos PDF de imágenes escaneadas, en un PDF con texto insertado. El texto insertado permite la búsqueda profunda de texto dentro del contenido extraído del PDF mediante la superposición de las entidades de texto detectadas sobre los archivos de imagen.

Importante

Actualmente, la funcionalidad de PDF utilizable en búsquedas solo es compatible con el modelo de lectura de OCR prebuilt-read. Al usar esta característica, especifique modelId como prebuilt-read, ya que otros tipos de modelo devolverán un error para esta versión preliminar.
PDF que se puede buscar se incluye con el modelo 2024-07-31-preview prebuilt-read sin costo adicional para generar una salida PDF utilizable en búsquedas.
- Un PDF utilizable en búsquedas actualmente solo admite archivos PDF como entrada. La compatibilidad con otros tipos de archivo, como archivos de imagen, estará disponible más adelante.

Uso de archivos PDF que se pueden buscar

Para usar PDF utilizable en búsquedas, envíe una solicitud POST mediante la operación Analyze y especifique el formato de salida como pdf:


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

Sondee la finalización de la operación de Analyze. Una vez completada la operación, emita una solicitud de GET para recuperar el formato PDF de los resultados de la operación de Analyze.

Cuando se complete correctamente, el PDF se puede recuperar y descargar como application/pdf. Esta operación permite la descarga directa del formato de texto insertado de PDF en lugar de JSON codificado en Base64.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

Parámetro Pages

La colección de páginas es una lista de páginas del documento. Cada página se representa secuencialmente dentro del documento e incluye el ángulo de orientación, que indica si la página está girada, así como su ancho y alto (dimensiones en píxeles). Las unidades de página de la salida del modelo se calculan como se muestra:

Formato de archivo	Unidad de página calculada	Páginas totales
Imágenes (JPEG/JPG, PNG, BMP y HEIF)	Cada imagen = 1 unidad de página	Total de imágenes
PDF	Cada página del PDF = 1 unidad de página	Total de páginas en el PDF
TIFF	Cada imagen del TIFF = 1 unidad de página	Total de imágenes en el TIFF
Word (DOCX)	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una
Excel (XLSX)	Cada hoja de cálculo = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de hojas de cálculo
PowerPoint (PPTX)	Cada diapositiva = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de diapositivas
HTML	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una

Código de ejemplo
Salida

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Ver ejemplos en GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Uso de páginas para la extracción de texto

En el caso de documentos PDF de varias páginas de gran tamaño, use el parámetro de consulta pages para indicar números de página o intervalos de páginas específicos para la extracción de texto.

Extracción de párrafos

El modelo de lectura de OCR en Inteligencia de documentos extrae todos los bloques de texto identificados de la colección paragraphs como objeto de nivel superior en analyzeResults. Cada entrada de esta colección representa un bloque de texto e incluye el texto extraído como content y las coordenadas polygon delimitadoras. La información de span apunta al fragmento de texto dentro de la propiedad content de nivel superior que contiene el texto completo del documento.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Extracción de texto, líneas y palabras

El modelo de lectura de OCR extrae texto de estilo impreso y manuscrito como lines y words. El modelo genera coordenadas polygon delimitadoras y confidence para las palabras extraídas. La colección styles incluye cualquier estilo manuscrito para las líneas si se detectan, junto con los intervalos que apuntan al texto asociado. Esta característica se aplica a los idiomas manuscritos admitidos.

En el caso de Microsoft Word, Excel, PowerPoint y HTML, a partir de la versión 3.1 del modelo de lectura de Document Intelligence todo el texto insertado se extrae tal como está. Los textos se extraen en forma de palabras y párrafos. No se admiten las imágenes insertadas.

Código de ejemplo
Salida

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Ver ejemplos en GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Extracción de estilo manuscrito

La respuesta incluye la clasificación de si cada línea de texto es de estilo manuscrito o no, junto con una puntuación de confianza. Para obtener más información, consulte la compatibilidad con idiomas manuscritos. En el ejemplo siguiente se muestra un ejemplo de fragmento JSON.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Si ha habilitado la funcionalidad del complemento de estilo o fuente, también obtendrá el resultado de fuente y estilo como parte del objeto styles.

Pasos siguientes v4.0

Complete un inicio rápido de Inteligencia de documentos:

Explorar nuestra API de REST:

Document Intelligence API, versión 4.0

Encuentre más ejemplos en GitHub:

Modelo de lectura.

Este contenido se aplica a: v3.1 (GA) | Versión más reciente: v4.0 (versión preliminar) | Versiones anteriores: v3.0

Este contenido se aplica a: v3.0 (GA) | Versiones más recientes: v4.0 (versión preliminar) v3.1

Nota:

¿Qué es OCR para documentos?

Opciones de desarrollo

Documento de inteligencia v3.1 es compatible con las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Documento de inteligencia v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica	Recursos	Id. de modelo
Modelo de lectura de OCR	• Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript	prebuilt-read

Requisitos de entrada

Formatos de archivos admitidos:

Modelo	PDF	Imagen: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Leer	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Documento general	✔	✔
Creada previamente	✔	✔
Extracción personalizada	✔	✔
Clasificación personalizada	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).
El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).
Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a 8 puntos de texto a 150 puntos por pulgada (PPP).
Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.
- Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
- Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-07-31-preview y versiones posteriores, el tamaño total de los datos de entrenamiento es 2 GB con un máximo de 10 000 páginas.

Introducción al modelo de lectura

Intente extraer texto de formularios y documentos mediante Inteligencia de documentos Studio. Necesitará los recursos siguientes:

Una suscripción a Azure (se puede crear de forma gratuita).
Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Nota:

Actualmente, Inteligencia de documentos Studio no admite formatos de archivo Microsoft Word, Excel, PowerPoint y HTML.

Documento de ejemplo procesado con Inteligencia de documentos Studio

Captura de pantalla del proceso de Lectura en Inteligencia de documentos Studio.

En la página principal de Estudio de Documento de inteligencia, seleccione Lectura.
Puede analizar el documento de ejemplo o cargar archivos propios.
Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

Pruebe Document Intelligence Studio.

Idiomas y configuraciones regionales compatibles

Para ver una lista completa de los idiomas admitidos, consulte nuestra página de Idiomas admitidos: modelos de análisis de documentos.

Extracción de datos

Nota:

Los archivos de Microsoft Word y HTML se admiten a partir de la versión 3.1. En comparación con los archivos PDF y las imágenes, no se admiten las siguientes características:

No hay ángulo, ancho/alto ni unidad en todos los objetos de página.
En los objetos detectados no hay polígonos delimitadores ni regiones delimitadoras.
El intervalo de páginas (pages) no se admite como parámetro.
No hay objetos lines.

PDF utilizable en búsquedas

Importante

Actualmente, la funcionalidad de PDF utilizable en búsquedas solo es compatible con el modelo de lectura de OCR prebuilt-read. Al usar esta característica, especifique modelId como prebuilt-read, ya que otros tipos de modelo devolverán un error para esta versión preliminar.
PDF que se puede buscar se incluye con el modelo 2024-07-31-preview prebuilt-read sin costo adicional para generar una salida PDF utilizable en búsquedas.
- Un PDF utilizable en búsquedas actualmente solo admite archivos PDF como entrada. La compatibilidad con otros tipos de archivo, como archivos de imagen, estará disponible más adelante.

Uso de PDF utilizable en búsquedas

Para usar PDF utilizable en búsquedas, envíe una solicitud POST mediante la operación Analyze y especifique el formato de salida como pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Sondee la finalización de la operación de Analyze. Una vez completada la operación, emita una solicitud de GET para recuperar el formato PDF de los resultados de la operación de Analyze.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Páginas

Formato de archivo	Unidad de página calculada	Páginas totales
Imágenes (JPEG/JPG, PNG, BMP y HEIF)	Cada imagen = 1 unidad de página	Total de imágenes
PDF	Cada página del PDF = 1 unidad de página	Total de páginas en el PDF
TIFF	Cada imagen del TIFF = 1 unidad de página	Total de imágenes en el TIFF
Word (DOCX)	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una
Excel (XLSX)	Cada hoja de cálculo = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de hojas de cálculo
PowerPoint (PPTX)	Cada diapositiva = 1 unidad de página; no se admiten imágenes insertadas o vinculadas	Total de diapositivas
HTML	Hasta 3000 caracteres = 1 unidad de página; no se admiten imágenes incrustadas o vinculadas	Total de páginas de hasta 3000 caracteres cada una

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Código de ejemplo
Salida

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Ver ejemplos en GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Selección de páginas para la extracción de texto

Párrafos

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Texto, líneas y palabras


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Código de ejemplo
Salida

    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Ver ejemplos en GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Estilo manuscrito para líneas de texto

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Si ha habilitado la funcionalidad del complemento de estilo o fuente, también obtendrá el resultado de fuente y estilo como parte del objeto styles.

Pasos siguientes

Complete un inicio rápido de Inteligencia de documentos:

Explorar nuestra API de REST:

Document Intelligence API, versión 4.0

Encuentre más ejemplos en GitHub:

Modelo de lectura.

Partekatu honen bidez:

Modelo de lectura de Documento de inteligencia

¿Qué es el reconocimiento óptico de caracteres?

Opciones de desarrollo (v4)

Requisitos de entrada (v4)

Introducción al modelo de lectura (v4)

Idiomas y configuraciones regionales admitidos (v4)

Extracción de datos (v4)

Archivos PDF que se pueden buscar

Uso de archivos PDF que se pueden buscar

Parámetro Pages

Uso de páginas para la extracción de texto

Extracción de párrafos

Extracción de texto, líneas y palabras

Extracción de estilo manuscrito

Pasos siguientes v4.0

¿Qué es OCR para documentos?

Opciones de desarrollo

Requisitos de entrada

Introducción al modelo de lectura

Idiomas y configuraciones regionales compatibles

Extracción de datos

PDF utilizable en búsquedas

Uso de PDF utilizable en búsquedas

Páginas

Selección de páginas para la extracción de texto

Párrafos

Texto, líneas y palabras

Estilo manuscrito para líneas de texto

Pasos siguientes

Oharrak

Baliabide gehigarriak