Funcionalidades del complemento Documento de inteligencia

Artículo
03/27/2024

Importante

Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
Este de EE. UU.
Oeste de EE. UU. 2
Oeste de Europa

Este contenido se aplica a:v4.0 (versión preliminar) | Versiones anteriores:v3.1 (GA)

Este contenido se aplica a:v3.1 (GA) | Versión más reciente:v4.0 (versión preliminar)

Nota:

Las funcionalidades de complementos están disponibles en todos los modelos, excepto el modelo de tarjeta de presentación.

Documento de inteligencia es compatible con capacidades de análisis más sofisticadas y modulares. Use las características del complemento para ampliar los resultados para incluir más características extraídas de los documentos. Algunas características del complemento conllevan un costo adicional. Estas características opcionales se pueden habilitar y deshabilitar en función del escenario de extracción de documentos. Para habilitar una característica, agregue el nombre de la característica asociada a la propiedad de cadena de consulta features. Puede habilitar más de una característica de complemento en una solicitud proporcionando una lista separada por comas de características. Las siguientes funcionalidades de complemento están disponibles para 2023-07-31 (GA) y versiones posteriores.

ocrHighResolution
formulas
styleFont
barcodes
languages

Nota:

No todas las funcionalidades del complemento son compatibles con todos los modelos. Para más información, consulte extracción de datos del modelo.

Las siguientes funcionalidades de complemento están disponibles para 2024-02-29-preview, 2024-02-29-preview y versiones posteriores:

keyValuePairs
queryFields

Nota:

La implementación de campos de consulta en la API 2023-10-30-preview es diferente de la última versión preliminar. La nueva implementación es menos costosa y funciona bien con documentos estructurados.

Capacidad del complemento	Complemento/gratis	2024-02-29-preview	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extracción de propiedades de fuente	Complemento	✔️	✔️	N/D	N/D
Extracción de fórmulas	Complemento	✔️	✔️	N/D	N/D
Extracción de alta resolución	Complemento	✔️	✔️	N/D	N/D
Extracción de códigos de barras	Gratuito	✔️	✔️	N/D	N/D
Detección de idioma	Gratuito	✔️	✔️	N/D	N/D
Pares clave-valor	Gratuito	✔️	N/D	n/d	N/D
Campos de consulta	Complemento*	✔️	N/D	n/d	N/D

Complemento*: los campos de consulta tienen un precio diferente al de las otras características del complemento. Consulte Precios para obtener detalles.

Extracción de alta resolución

La tarea de reconocer texto pequeño en documentos de gran tamaño, como dibujos de ingeniería, es un desafío. A menudo, el texto se mezcla con otros elementos gráficos y tiene fuentes, tamaños y orientaciones variables. Además, el texto puede dividirse en distintas partes o estar conectado con otros símbolos. Documento de inteligencia ahora admite la extracción de contenido de estos tipos de documentos con la funcionalidad ocr.highResolution. Para mejorar la calidad de la extracción de contenido de documentos A1, A2 y A3, habilite esta funcionalidad de complemento.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extracción de fórmulas

La funcionalidad ocr.formula extrae todas las fórmulas identificadas, como ecuaciones matemáticas, de la colección formulas como un objeto de nivel superior en content. Dentro de content, las fórmulas detectadas se representan como :formula:. Cada entrada de esta colección representa una fórmula que incluye el tipo de fórmula como inline o display, y su representación LaTeX como value junto con sus coordenadas polygon. Inicialmente, las fórmulas aparecen al final de cada página.

Nota:

La puntuación confidence está codificada de forma rígida.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extracción de propiedades de fuente

La funcionalidad ocr.font extrae todas las propiedades de fuente del texto extraído de la colección styles como un objeto de nivel superior en content. Cada objeto de estilo especifica una sola propiedad de fuente, el intervalo de texto al que se aplica y su puntuación de confianza correspondiente. La propiedad de estilo existente se amplía con más propiedades de fuente, como similarFontFamily para la fuente del texto, fontStyle para estilos como cursiva y normal, fontWeight para negrita o normal, color para color del texto y backgroundColor para el color del cuadro de límite de texto.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extracción de propiedades de código de barras

La capacidad ocr.barcode extrae todos los códigos de barras identificados en la barcodes como objeto de nivel superior en content. Dentro de contentlos códigos de barras detectados se representan como :barcode:. Cada entrada de esta colección representa un código de barras e incluye el tipo de código de barras como kind y el contenido de código de barras incrustado como value junto con sus coordenadas polygon. Inicialmente, los códigos de barras aparecen al final de cada página. El confidence está codificado como 1.

Tipos de códigos de barras admitidos

Tipo de código de barras	Ejemplo
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` Expandido
`ITF`
`Data Matrix`

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Detección de idioma

Al agregar la característica languages a la solicitud de analyzeResult, se predice el idioma principal detectado para cada línea de texto junto con el confidence de la colección languages en analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pares clave-valor.

En versiones anteriores de la API, el modelo de documento precompilado extrajo pares clave-valor de formularios y documentos. Con la adición de la característica keyValuePairs al diseño precompilado, el modelo de diseño ahora genera los mismos resultados.

Los pares clave-valor son intervalos específicos dentro del documento que identifican una etiqueta o una clave y su respuesta o valor asociados. De forma estructurada, estos pares pueden ser la etiqueta y el valor que ha escrito el usuario para ese campo. En una documentación no estructurada, pueden ser la fecha en la que se ejecutó un contrato según el mensaje de texto de un párrafo. El modelo de IA está entrenado para extraer claves y valores identificables basados en una amplia variedad de tipos de documentos, formatos y estructuras.

Las claves también pueden existir de forma aislada cuando el modelo detecta que existe una clave, sin ningún valor asociado, o cuando se procesan campos opcionales. Por ejemplo, un campo de segundo nombre se puede dejar en blanco en un formulario en algunos casos. Los pares clave-valor son intervalos de texto contenidos en el documento. Para documentos donde el mismo valor se describe de diferentes maneras, por ejemplo, cliente/usuario, la clave asociada es cliente o usuario (según el contexto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Los campos de consulta son una funcionalidad de complemento para ampliar el esquema extraído de cualquier modelo precompilado o definir un nombre de clave específico cuando el nombre de clave es variable. Para usar campos de consulta, establezca las características en queryFields y proporcione una lista separada por comas de nombres de campo en la propiedad queryFields.

Documento de inteligencia ahora es compatible con las extracciones de campos de consulta. Con la extracción de campos de consulta, puede agregar campos al proceso de extracción mediante una solicitud de consulta sin necesidad de entrenamiento adicional.
Use campos de consulta cuando necesite ampliar el esquema de un modelo precompilado o personalizado o necesite extraer algunos campos con la salida del diseño.
Los campos de consulta son una funcionalidad de complemento Premium. Para obtener los mejores resultados, defina los campos que desea extraer mediante "Camel Case" o "Pascal Case" para nombres de campo de varias palabras.
Los campos de consulta admiten un máximo de 20 campos por solicitud. Si el documento contiene un valor para el campo, se devuelve el campo y el valor.
Esta versión tiene una nueva implementación de la funcionalidad de campos de consulta que tiene un precio inferior a la implementación anterior y que se debería validar.

Nota:

La extracción de campos de consulta de Document Intelligence Studio está disponible actualmente en los modelos precompilados y de diseño a partir de la API 2024-02-29-preview2023-10-31-preview y versiones posteriores, excepto los modelos US tax (W2, modelos 1098 y 1099).

Extracción de campos de consulta

Para la extracción de campos de consulta, especifique los campos que desea extraer y Document Intelligence analizará el documento en consecuencia. Este es un ejemplo:

Si está procesando un contrato en Document Intelligence Studio, use las versiones 2024-02-29-preview o 2023-10-31-preview:
Puede pasar una lista de etiquetas de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate y TermEndDate como parte de la solicitud analyze document.
Documento de inteligencia es capaz de analizar y extraer los datos de campo y devolver los valores en una salida JSON estructurada.
Además de los campos de consulta, la respuesta incluye texto, tablas, marcas de selección y otros datos pertinentes.

API DE REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Pasos siguientes

Más información: Modelo de lecturaModelo de diseño

Ejemplos de SDK: python

Funcionalidades del complemento Documento de inteligencia

Extracción de alta resolución

REST API

Extracción de fórmulas

REST API

Extracción de propiedades de fuente

REST API

Extracción de propiedades de código de barras

Tipos de códigos de barras admitidos

REST API

Detección de idioma

REST API

Pares clave-valor.

REST API

Campos de consulta

Extracción de campos de consulta

API DE REST

Pasos siguientes

Recursos adicionales