Recursos de complemento do Document Intelligence

Artigo
03/09/2024

Importante

As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
Leste dos EUA
Oeste dos EUA 2
Oeste da Europa

Este conteúdo se aplica a:v4.0 (versão prévia) | Versões anteriores:v3.1 (GA)

Este conteúdo se aplica a:v3.1(disponibilidade geral) | Versão mais recente:v4.0 (versão prévia)

Observação

Os recursos de complemento estão disponíveis em todos os modelos, exceto no modelo de cartão de Negócios.

A Informação de Documentos agora dá suporte a recursos de análise mais sofisticados e modulares. Use os recursos de complemento para estender os resultados para incluir mais recursos extraídos de seus documentos. Alguns recursos de complemento incorrem em um custo extra. Esses recursos opcionais podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Para habilitar um recurso, adicione o nome do recurso associado à propriedade features da cadeia de caracteres da consulta. Você pode habilitar mais de um recurso complementar em uma solicitação ao fornecer uma lista de recursos separada por vírgulas. Os seguintes recursos complementares estão disponíveis para a versão 2023-07-31 (GA) e posteriores.

ocrHighResolution
formulas
styleFont
barcodes
languages

Observação

Nem todas as funcionalidades complementares têm suporte para todos os modelos. Para obter mais informações, confiraextração de dados do modelo.

Os seguintes recursos complementares estão disponíveis para a versão 2024-02-29-preview, 2024-02-29-preview, e posteriores:

keyValuePairs
queryFields

Observação

A implementação dos campos de consulta na API de 30/10/2023 versão prévia é diferente da última versão prévia. A nova implementação é mais barata e funciona bem com documentos estruturados.

Funcionalidade do complemento	Complemento/gratuito	2024-02-29-preview	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extração de propriedade de fonte	Complemento	✔️	✔️	N/D	N/D
Extração de fórmulas	Complemento	✔️	✔️	N/D	N/D
Extração de alta resolução	Complemento	✔️	✔️	N/D	N/D
Extração de código de barras	Grátis	✔️	✔️	N/D	N/D
Detecção de idioma	Grátis	✔️	✔️	N/D	N/D
Pares chave-valor	Grátis	✔️	N/D	N/D	N/D
Campos de consulta	Complemento*	✔️	N/D	N/D	N/D

Complemento*: os campos de consulta têm um preço diferente dos outros recursos complementares. Para obter detalhes, confira os preços.

Extração de alta resolução

A tarefa de reconhecer textos pequenos de documentos de grande porte, como desenhos de engenharia, é um desafio. Geralmente, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variados. Além disso, o texto pode ser dividido em partes separadas ou conectado a outros símbolos. A Informação de Documentos agora dá suporte à extração de conteúdo desses tipos de documentos com a funcionalidade ocr.highResolution. Você obtém uma qualidade aprimorada da extração de conteúdo de documentos A1/A2/A3 habilitando essa funcionalidade de complemento.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extração de fórmulas

A funcionalidade ocr.formula extrai todas as fórmulas identificadas, como equações matemáticas, na coleção formulas como um objeto de nível superior em content. Dentro de content, as fórmulas detectadas são representadas como :formula:. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline ou display, e sua representação LaTeX como value junto com suas coordenadas polygon. Inicialmente, fórmulas aparecem no final de cada página.

Observação

A pontuação confidence é codificada.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extração de propriedade de fonte

A funcionalidade ocr.font extrai todas as propriedades de fonte do texto extraído na coleção styles como um objeto de nível superior em content. Cada objeto de estilo especifica uma única propriedade de fonte, o intervalo de texto ao qual ele se aplica e sua pontuação de confiança correspondente. A propriedade de estilo existente é estendida com mais propriedades de fonte, como similarFontFamily para a fonte do texto, fontStyle para estilos como itálico e normal, fontWeight para negrito ou normal, color para cor do texto e backgroundColor para a cor da caixa delimitadora de texto.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

API REST

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extração de propriedade de código de barras

O recurso ocr.barcode extrai todos os códigos de barras identificados na coleção barcodes como um objeto de nível superior em content. Dentro do content, os códigos de barras detectados são representados como :barcode:. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind e o conteúdo do código de barras inserido como value, juntamente com suas coordenadas polygon. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence é codificado como 1.

Tipos de código de barras com suporte

Tipo de código de barras	Exemplo
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` Expandido
`ITF`
`Data Matrix`

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Detecção de idioma

Adicionar o recurso languages à solicitação analyzeResult prevê o idioma principal detectado para cada linha de texto junto com a confidence na coleção de languages em analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pares de chave-valor

Em versões anteriores da API, o modelo de documento predefinido extraia pares de chave-valor de formulários e documentos. Com o acréscimo do recurso keyValuePairs ao layout predefinido, o modelo de layout agora produz os mesmos resultados.

Pares de chave-valor são spans específicos dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares poderiam ser o rótulo e o valor que o usuário inseriu no campo. Em um documento não estruturado, poderiam ser a data em que um contrato foi executado com base no texto em um parágrafo. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares de chave-valor são intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Os campos de consulta são um recurso complementar destinado a ampliar o esquema extraído de qualquer modelo predefinido ou definir um nome de chave específico quando o nome da chave for variável. Para usar campos de consulta, defina os recursos para queryFields e forneça uma lista separada por vírgulas de nomes de campo na propriedade queryFields.

A Informação de Documentos agora dá suporte ás extrações de campo de consulta. Com a extração de campo de consulta, é possível adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.
Use os campos de consulta quando precisar estender o esquema de um modelo predefinido ou personalizado ou precisar extrair alguns campos com a saída do layout.
Os campos de consulta são uma funcionalidade de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo em letras maiúsculas ou minúsculas para nomes de campo com várias palavras.
Os campos de consulta dão suporte a um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.
Esta versão tem uma nova implementação da funcionalidade de campos de consulta que tem um preço menor que a implementação anterior e deve ser validada.

Observação

A extração de campo de consulta do Document Intelligence Studio está disponível atualmente com os modelos Layout e Predefinidos 2024-02-29-preview2023-10-31-preview API e versões posteriores, exceto para os modelos US tax (modelos W2, 1098s e 1099s).

Extração de campo de consulta

Para realizar a extração de campo de consulta, especifique os campos que deseja extrair e a Informação de Documentos analisará o documento adequadamente. Veja um exemplo:

Se você estiver processando um contrato no Estúdio da Informação de Documentos, use as versões 2024-02-29-preview ou 2023-10-31-preview:
Você pode passar uma lista de rótulos de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate e TermEndDate como parte da solicitação de analyze document.
A Informação de Documentos pode analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.
Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Próximas etapas

Saiba mais: modelo de leituramodelo de layout

Exemplos de SDK: Python

Recursos de complemento do Document Intelligence

Extração de alta resolução

API REST

Extração de fórmulas

API REST

Extração de propriedade de fonte

API REST

Extração de propriedade de código de barras

Tipos de código de barras com suporte

API REST

Detecção de idioma

API REST

Pares de chave-valor

API REST

Campos de consulta

Extração de campo de consulta

API REST

Próximas etapas

Recursos adicionais