Funcionalidades del complemento Documento de inteligencia
Importante
- Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
- Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
- La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
- La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
- Este de EE. UU.
- Oeste de EE. UU. 2
- Oeste de Europa
Este contenido se aplica a:v4.0 (versión preliminar) | Versiones anteriores:v3.1 (GA)
Este contenido se aplica a:v3.1 (GA) | Versión más reciente:v4.0 (versión preliminar)
Nota:
Las funcionalidades de complementos están disponibles en todos los modelos, excepto el modelo de tarjeta de presentación.
Documento de inteligencia es compatible con capacidades de análisis más sofisticadas y modulares. Use las características del complemento para ampliar los resultados para incluir más características extraídas de los documentos. Algunas características del complemento conllevan un costo adicional. Estas características opcionales se pueden habilitar y deshabilitar en función del escenario de extracción de documentos. Para habilitar una característica, agregue el nombre de la característica asociada a la propiedad de cadena de consulta features
. Puede habilitar más de una característica de complemento en una solicitud proporcionando una lista separada por comas de características. Las siguientes funcionalidades de complemento están disponibles para 2023-07-31 (GA)
y versiones posteriores.
Nota:
No todas las funcionalidades del complemento son compatibles con todos los modelos. Para más información, consulte extracción de datos del modelo.
Las siguientes funcionalidades de complemento están disponibles para 2024-02-29-preview
, 2024-02-29-preview
y versiones posteriores:
Nota:
La implementación de campos de consulta en la API 2023-10-30-preview es diferente de la última versión preliminar. La nueva implementación es menos costosa y funciona bien con documentos estructurados.
Capacidad del complemento | Complemento/gratis | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extracción de propiedades de fuente | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de fórmulas | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de alta resolución | Complemento | ✔️ | ✔️ | N/D | N/D |
Extracción de códigos de barras | Gratuito | ✔️ | ✔️ | N/D | N/D |
Detección de idioma | Gratuito | ✔️ | ✔️ | N/D | N/D |
Pares clave-valor | Gratuito | ✔️ | N/D | n/d | N/D |
Campos de consulta | Complemento* | ✔️ | N/D | n/d | N/D |
Complemento*: los campos de consulta tienen un precio diferente al de las otras características del complemento. Consulte Precios para obtener detalles.
Extracción de alta resolución
La tarea de reconocer texto pequeño en documentos de gran tamaño, como dibujos de ingeniería, es un desafío. A menudo, el texto se mezcla con otros elementos gráficos y tiene fuentes, tamaños y orientaciones variables. Además, el texto puede dividirse en distintas partes o estar conectado con otros símbolos. Documento de inteligencia ahora admite la extracción de contenido de estos tipos de documentos con la funcionalidad ocr.highResolution
. Para mejorar la calidad de la extracción de contenido de documentos A1, A2 y A3, habilite esta funcionalidad de complemento.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Extracción de fórmulas
La funcionalidad ocr.formula
extrae todas las fórmulas identificadas, como ecuaciones matemáticas, de la colección formulas
como un objeto de nivel superior en content
. Dentro de content
, las fórmulas detectadas se representan como :formula:
. Cada entrada de esta colección representa una fórmula que incluye el tipo de fórmula como inline
o display
, y su representación LaTeX como value
junto con sus coordenadas polygon
. Inicialmente, las fórmulas aparecen al final de cada página.
Nota:
La puntuación confidence
está codificada de forma rígida.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Extracción de propiedades de fuente
La funcionalidad ocr.font
extrae todas las propiedades de fuente del texto extraído de la colección styles
como un objeto de nivel superior en content
. Cada objeto de estilo especifica una sola propiedad de fuente, el intervalo de texto al que se aplica y su puntuación de confianza correspondiente. La propiedad de estilo existente se amplía con más propiedades de fuente, como similarFontFamily
para la fuente del texto, fontStyle
para estilos como cursiva y normal, fontWeight
para negrita o normal, color
para color del texto y backgroundColor
para el color del cuadro de límite de texto.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Extracción de propiedades de código de barras
La capacidad ocr.barcode
extrae todos los códigos de barras identificados en la barcodes
como objeto de nivel superior en content
. Dentro de content
los códigos de barras detectados se representan como :barcode:
. Cada entrada de esta colección representa un código de barras e incluye el tipo de código de barras como kind
y el contenido de código de barras incrustado como value
junto con sus coordenadas polygon
. Inicialmente, los códigos de barras aparecen al final de cada página. El confidence
está codificado como 1.
Tipos de códigos de barras admitidos
Tipo de código de barras | Ejemplo |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Expandido |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Detección de idioma
Al agregar la característica languages
a la solicitud de analyzeResult
, se predice el idioma principal detectado para cada línea de texto junto con el confidence
de la colección languages
en analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Pares clave-valor.
En versiones anteriores de la API, el modelo de documento precompilado extrajo pares clave-valor de formularios y documentos. Con la adición de la característica keyValuePairs
al diseño precompilado, el modelo de diseño ahora genera los mismos resultados.
Los pares clave-valor son intervalos específicos dentro del documento que identifican una etiqueta o una clave y su respuesta o valor asociados. De forma estructurada, estos pares pueden ser la etiqueta y el valor que ha escrito el usuario para ese campo. En una documentación no estructurada, pueden ser la fecha en la que se ejecutó un contrato según el mensaje de texto de un párrafo. El modelo de IA está entrenado para extraer claves y valores identificables basados en una amplia variedad de tipos de documentos, formatos y estructuras.
Las claves también pueden existir de forma aislada cuando el modelo detecta que existe una clave, sin ningún valor asociado, o cuando se procesan campos opcionales. Por ejemplo, un campo de segundo nombre se puede dejar en blanco en un formulario en algunos casos. Los pares clave-valor son intervalos de texto contenidos en el documento. Para documentos donde el mismo valor se describe de diferentes maneras, por ejemplo, cliente/usuario, la clave asociada es cliente o usuario (según el contexto).
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Campos de consulta
Los campos de consulta son una funcionalidad de complemento para ampliar el esquema extraído de cualquier modelo precompilado o definir un nombre de clave específico cuando el nombre de clave es variable. Para usar campos de consulta, establezca las características en queryFields
y proporcione una lista separada por comas de nombres de campo en la propiedad queryFields
.
Documento de inteligencia ahora es compatible con las extracciones de campos de consulta. Con la extracción de campos de consulta, puede agregar campos al proceso de extracción mediante una solicitud de consulta sin necesidad de entrenamiento adicional.
Use campos de consulta cuando necesite ampliar el esquema de un modelo precompilado o personalizado o necesite extraer algunos campos con la salida del diseño.
Los campos de consulta son una funcionalidad de complemento Premium. Para obtener los mejores resultados, defina los campos que desea extraer mediante "Camel Case" o "Pascal Case" para nombres de campo de varias palabras.
Los campos de consulta admiten un máximo de 20 campos por solicitud. Si el documento contiene un valor para el campo, se devuelve el campo y el valor.
Esta versión tiene una nueva implementación de la funcionalidad de campos de consulta que tiene un precio inferior a la implementación anterior y que se debería validar.
Nota:
La extracción de campos de consulta de Document Intelligence Studio está disponible actualmente en los modelos precompilados y de diseño a partir de la API 2024-02-29-preview
2023-10-31-preview
y versiones posteriores, excepto los modelos US tax
(W2, modelos 1098 y 1099).
Extracción de campos de consulta
Para la extracción de campos de consulta, especifique los campos que desea extraer y Document Intelligence analizará el documento en consecuencia. Este es un ejemplo:
Si está procesando un contrato en Document Intelligence Studio, use las versiones
2024-02-29-preview
o2023-10-31-preview
:Puede pasar una lista de etiquetas de campo como
Party1
,Party2
,TermsOfUse
,PaymentTerms
,PaymentDate
yTermEndDate
como parte de la solicitudanalyze document
.Documento de inteligencia es capaz de analizar y extraer los datos de campo y devolver los valores en una salida JSON estructurada.
Además de los campos de consulta, la respuesta incluye texto, tablas, marcas de selección y otros datos pertinentes.
API DE REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Pasos siguientes
Más información: Modelo de lecturaModelo de diseño
Ejemplos de SDK: python