Recursos de complemento do Document Intelligence

Importante

  • As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
  • A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
  • Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
  • Leste dos EUA
  • Oeste dos EUA 2
  • Oeste da Europa

Este conteúdo se aplica a:marca de seleçãov4.0 (versão prévia) | Versões anteriores:marca de seleção azulv3.1 (GA)

Este conteúdo se aplica a:marca de seleçãov3.1(disponibilidade geral) | Versão mais recente:marca de seleção púrpurav4.0 (versão prévia)

Observação

Os recursos de complemento estão disponíveis em todos os modelos, exceto no modelo de cartão de Negócios.

A Informação de Documentos agora dá suporte a recursos de análise mais sofisticados e modulares. Use os recursos de complemento para estender os resultados para incluir mais recursos extraídos de seus documentos. Alguns recursos de complemento incorrem em um custo extra. Esses recursos opcionais podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Para habilitar um recurso, adicione o nome do recurso associado à propriedade features da cadeia de caracteres da consulta. Você pode habilitar mais de um recurso complementar em uma solicitação ao fornecer uma lista de recursos separada por vírgulas. Os seguintes recursos complementares estão disponíveis para a versão 2023-07-31 (GA) e posteriores.

Observação

Nem todas as funcionalidades complementares têm suporte para todos os modelos. Para obter mais informações, confiraextração de dados do modelo.

Os seguintes recursos complementares estão disponíveis para a versão 2024-02-29-preview, 2024-02-29-preview, e posteriores:

Observação

A implementação dos campos de consulta na API de 30/10/2023 versão prévia é diferente da última versão prévia. A nova implementação é mais barata e funciona bem com documentos estruturados.

Funcionalidade do complemento Complemento/gratuito 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extração de propriedade de fonte Complemento ✔️ ✔️ N/D N/D
Extração de fórmulas Complemento ✔️ ✔️ N/D N/D
Extração de alta resolução Complemento ✔️ ✔️ N/D N/D
Extração de código de barras Grátis ✔️ ✔️ N/D N/D
Detecção de idioma Grátis ✔️ ✔️ N/D N/D
Pares chave-valor Grátis ✔️ N/D N/D N/D
Campos de consulta Complemento* ✔️ N/D N/D N/D

Complemento*: os campos de consulta têm um preço diferente dos outros recursos complementares. Para obter detalhes, confira os preços.

Extração de alta resolução

A tarefa de reconhecer textos pequenos de documentos de grande porte, como desenhos de engenharia, é um desafio. Geralmente, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variados. Além disso, o texto pode ser dividido em partes separadas ou conectado a outros símbolos. A Informação de Documentos agora dá suporte à extração de conteúdo desses tipos de documentos com a funcionalidade ocr.highResolution. Você obtém uma qualidade aprimorada da extração de conteúdo de documentos A1/A2/A3 habilitando essa funcionalidade de complemento.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extração de fórmulas

A funcionalidade ocr.formula extrai todas as fórmulas identificadas, como equações matemáticas, na coleção formulas como um objeto de nível superior em content. Dentro de content, as fórmulas detectadas são representadas como :formula:. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline ou display, e sua representação LaTeX como value junto com suas coordenadas polygon. Inicialmente, fórmulas aparecem no final de cada página.

Observação

A pontuação confidence é codificada.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extração de propriedade de fonte

A funcionalidade ocr.font extrai todas as propriedades de fonte do texto extraído na coleção styles como um objeto de nível superior em content. Cada objeto de estilo especifica uma única propriedade de fonte, o intervalo de texto ao qual ele se aplica e sua pontuação de confiança correspondente. A propriedade de estilo existente é estendida com mais propriedades de fonte, como similarFontFamily para a fonte do texto, fontStyle para estilos como itálico e normal, fontWeight para negrito ou normal, color para cor do texto e backgroundColor para a cor da caixa delimitadora de texto.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

API REST

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extração de propriedade de código de barras

O recurso ocr.barcode extrai todos os códigos de barras identificados na coleção barcodes como um objeto de nível superior em content. Dentro do content, os códigos de barras detectados são representados como :barcode:. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind e o conteúdo do código de barras inserido como value, juntamente com suas coordenadas polygon. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence é codificado como 1.

Tipos de código de barras com suporte

Tipo de código de barras Exemplo
QR Code Captura de tela do Código QR.
Code 39 Captura de tela do Código 39.
Code 93 Captura de tela do Código 93.
Code 128 Captura de tela do Código 128.
UPC (UPC-A & UPC-E) Captura de tela do UPC.
PDF417 Captura de tela do PDF417.
EAN-8 Captura de tela do código de barras EAN-8 (European Article Number).
EAN-13 Captura de tela do código de barras EAN-13 (European Article Number).
Codabar Captura de tela do Codabar.
Databar Captura de tela da Barra de dados.
Databar Expandido Captura de tela da Barra de dados expandida.
ITF Captura de tela do código de barras intercalado dois de cinco (ITF).
Data Matrix Captura de tela da Matriz de Dados.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Detecção de idioma

Adicionar o recurso languages à solicitação analyzeResult prevê o idioma principal detectado para cada linha de texto junto com a confidence na coleção de languages em analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pares de chave-valor

Em versões anteriores da API, o modelo de documento predefinido extraia pares de chave-valor de formulários e documentos. Com o acréscimo do recurso keyValuePairs ao layout predefinido, o modelo de layout agora produz os mesmos resultados.

Pares de chave-valor são spans específicos dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares poderiam ser o rótulo e o valor que o usuário inseriu no campo. Em um documento não estruturado, poderiam ser a data em que um contrato foi executado com base no texto em um parágrafo. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares de chave-valor são intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Os campos de consulta são um recurso complementar destinado a ampliar o esquema extraído de qualquer modelo predefinido ou definir um nome de chave específico quando o nome da chave for variável. Para usar campos de consulta, defina os recursos para queryFields e forneça uma lista separada por vírgulas de nomes de campo na propriedade queryFields.

  • A Informação de Documentos agora dá suporte ás extrações de campo de consulta. Com a extração de campo de consulta, é possível adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.

  • Use os campos de consulta quando precisar estender o esquema de um modelo predefinido ou personalizado ou precisar extrair alguns campos com a saída do layout.

  • Os campos de consulta são uma funcionalidade de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo em letras maiúsculas ou minúsculas para nomes de campo com várias palavras.

  • Os campos de consulta dão suporte a um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.

  • Esta versão tem uma nova implementação da funcionalidade de campos de consulta que tem um preço menor que a implementação anterior e deve ser validada.

Observação

A extração de campo de consulta do Document Intelligence Studio está disponível atualmente com os modelos Layout e Predefinidos 2024-02-29-preview2023-10-31-preview API e versões posteriores, exceto para os modelos US tax (modelos W2, 1098s e 1099s).

Extração de campo de consulta

Para realizar a extração de campo de consulta, especifique os campos que deseja extrair e a Informação de Documentos analisará o documento adequadamente. Veja um exemplo:

  • Se você estiver processando um contrato no Estúdio da Informação de Documentos, use as versões 2024-02-29-preview ou 2023-10-31-preview:

    Captura de tela do botão de campo de consulta do Estúdio de Informação de Documentos.

  • Você pode passar uma lista de rótulos de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate e TermEndDate como parte da solicitação de analyze document.

    Captura de tela da janela de seleção de campos de consulta no Estúdio de Informação de Documentos.

  • A Informação de Documentos pode analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.

  • Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Próximas etapas

Exemplos de SDK: Python