Recursos de complemento do Document Intelligence
Importante
- As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
- A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
- Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
Este conteúdo se aplica a:v4.0 (versão prévia) | Versões anteriores:v3.1 (GA)
Este conteúdo se aplica a:v3.1(disponibilidade geral) | Versão mais recente:v4.0 (versão prévia)
Observação
Os recursos de complemento estão disponíveis em todos os modelos, exceto no modelo de cartão de Negócios.
A Informação de Documentos agora dá suporte a recursos de análise mais sofisticados e modulares. Use os recursos de complemento para estender os resultados para incluir mais recursos extraídos de seus documentos. Alguns recursos de complemento incorrem em um custo extra. Esses recursos opcionais podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Para habilitar um recurso, adicione o nome do recurso associado à propriedade features
da cadeia de caracteres da consulta. Você pode habilitar mais de um recurso complementar em uma solicitação ao fornecer uma lista de recursos separada por vírgulas. Os seguintes recursos complementares estão disponíveis para a versão 2023-07-31 (GA)
e posteriores.
Observação
Nem todas as funcionalidades complementares têm suporte para todos os modelos. Para obter mais informações, confiraextração de dados do modelo.
Os seguintes recursos complementares estão disponíveis para a versão 2024-02-29-preview
, 2024-02-29-preview
, e posteriores:
Observação
A implementação dos campos de consulta na API de 30/10/2023 versão prévia é diferente da última versão prévia. A nova implementação é mais barata e funciona bem com documentos estruturados.
Funcionalidade do complemento | Complemento/gratuito | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extração de propriedade de fonte | Complemento | ✔️ | ✔️ | N/D | N/D |
Extração de fórmulas | Complemento | ✔️ | ✔️ | N/D | N/D |
Extração de alta resolução | Complemento | ✔️ | ✔️ | N/D | N/D |
Extração de código de barras | Grátis | ✔️ | ✔️ | N/D | N/D |
Detecção de idioma | Grátis | ✔️ | ✔️ | N/D | N/D |
Pares chave-valor | Grátis | ✔️ | N/D | N/D | N/D |
Campos de consulta | Complemento* | ✔️ | N/D | N/D | N/D |
Complemento*: os campos de consulta têm um preço diferente dos outros recursos complementares. Para obter detalhes, confira os preços.
Extração de alta resolução
A tarefa de reconhecer textos pequenos de documentos de grande porte, como desenhos de engenharia, é um desafio. Geralmente, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variados. Além disso, o texto pode ser dividido em partes separadas ou conectado a outros símbolos. A Informação de Documentos agora dá suporte à extração de conteúdo desses tipos de documentos com a funcionalidade ocr.highResolution
. Você obtém uma qualidade aprimorada da extração de conteúdo de documentos A1/A2/A3 habilitando essa funcionalidade de complemento.
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Extração de fórmulas
A funcionalidade ocr.formula
extrai todas as fórmulas identificadas, como equações matemáticas, na coleção formulas
como um objeto de nível superior em content
. Dentro de content
, as fórmulas detectadas são representadas como :formula:
. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline
ou display
, e sua representação LaTeX como value
junto com suas coordenadas polygon
. Inicialmente, fórmulas aparecem no final de cada página.
Observação
A pontuação confidence
é codificada.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Extração de propriedade de fonte
A funcionalidade ocr.font
extrai todas as propriedades de fonte do texto extraído na coleção styles
como um objeto de nível superior em content
. Cada objeto de estilo especifica uma única propriedade de fonte, o intervalo de texto ao qual ele se aplica e sua pontuação de confiança correspondente. A propriedade de estilo existente é estendida com mais propriedades de fonte, como similarFontFamily
para a fonte do texto, fontStyle
para estilos como itálico e normal, fontWeight
para negrito ou normal, color
para cor do texto e backgroundColor
para a cor da caixa delimitadora de texto.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Extração de propriedade de código de barras
O recurso ocr.barcode
extrai todos os códigos de barras identificados na coleção barcodes
como um objeto de nível superior em content
. Dentro do content
, os códigos de barras detectados são representados como :barcode:
. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind
e o conteúdo do código de barras inserido como value
, juntamente com suas coordenadas polygon
. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence
é codificado como 1.
Tipos de código de barras com suporte
Tipo de código de barras | Exemplo |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Expandido |
|
ITF |
|
Data Matrix |
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Detecção de idioma
Adicionar o recurso languages
à solicitação analyzeResult
prevê o idioma principal detectado para cada linha de texto junto com a confidence
na coleção de languages
em analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Pares de chave-valor
Em versões anteriores da API, o modelo de documento predefinido extraia pares de chave-valor de formulários e documentos. Com o acréscimo do recurso keyValuePairs
ao layout predefinido, o modelo de layout agora produz os mesmos resultados.
Pares de chave-valor são spans específicos dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares poderiam ser o rótulo e o valor que o usuário inseriu no campo. Em um documento não estruturado, poderiam ser a data em que um contrato foi executado com base no texto em um parágrafo. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.
As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares de chave-valor são intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Campos de consulta
Os campos de consulta são um recurso complementar destinado a ampliar o esquema extraído de qualquer modelo predefinido ou definir um nome de chave específico quando o nome da chave for variável. Para usar campos de consulta, defina os recursos para queryFields
e forneça uma lista separada por vírgulas de nomes de campo na propriedade queryFields
.
A Informação de Documentos agora dá suporte ás extrações de campo de consulta. Com a extração de campo de consulta, é possível adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.
Use os campos de consulta quando precisar estender o esquema de um modelo predefinido ou personalizado ou precisar extrair alguns campos com a saída do layout.
Os campos de consulta são uma funcionalidade de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo em letras maiúsculas ou minúsculas para nomes de campo com várias palavras.
Os campos de consulta dão suporte a um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.
Esta versão tem uma nova implementação da funcionalidade de campos de consulta que tem um preço menor que a implementação anterior e deve ser validada.
Observação
A extração de campo de consulta do Document Intelligence Studio está disponível atualmente com os modelos Layout e Predefinidos 2024-02-29-preview
2023-10-31-preview
API e versões posteriores, exceto para os modelos US tax
(modelos W2, 1098s e 1099s).
Extração de campo de consulta
Para realizar a extração de campo de consulta, especifique os campos que deseja extrair e a Informação de Documentos analisará o documento adequadamente. Veja um exemplo:
Se você estiver processando um contrato no Estúdio da Informação de Documentos, use as versões
2024-02-29-preview
ou2023-10-31-preview
:Você pode passar uma lista de rótulos de campo como
Party1
,Party2
,TermsOfUse
,PaymentTerms
,PaymentDate
eTermEndDate
como parte da solicitação deanalyze document
.A Informação de Documentos pode analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.
Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Próximas etapas
Saiba mais: modelo de leituramodelo de layout
Exemplos de SDK: Python