Recursos adicionais do Document Intelligence

Artigo
05/06/2024

Importante

As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
E.U.A. Leste
Oeste dos EUA2
Europa Ocidental

Este conteúdo aplica-se a:v4.0 (visualização) | Versões anteriores:v3.1 (GA)

Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (visualização)

Nota

Os recursos adicionais estão disponíveis em todos os modelos, exceto no modelo de cartão de visita.

Capacidades

O Document Intelligence suporta capacidades de análise mais sofisticadas e modulares. Use os recursos complementares para estender os resultados e incluir mais recursos extraídos de seus documentos. Alguns recursos adicionais incorrem em um custo extra. Esses recursos opcionais podem ser ativados e desativados dependendo do cenário de extração do documento. Para habilitar um recurso, adicione o nome do recurso associado à propriedade de cadeia de caracteres de features consulta. Você pode habilitar mais de um recurso de complemento em uma solicitação fornecendo uma lista de recursos separados por vírgula. Os seguintes recursos complementares estão disponíveis para 2023-07-31 (GA) versões posteriores.

ocrHighResolution
formulas
styleFont
barcodes
languages

Nota

Nem todos os recursos adicionais são suportados por todos os modelos. Para obter mais informações, consulteextração de dados do modelo.

Os seguintes recursos complementares estão disponíveis para2024-02-29-preview, 2024-02-29-previewe versões posteriores:

keyValuePairs
queryFields

Nota

A implementação dos campos de consulta na API 2023-10-30-preview é diferente da última versão de visualização. A nova implementação é menos dispendiosa e funciona bem com documentos estruturados.

Disponibilidade da versão

Capacidade de complemento	Add-On/Grátis	2024-02-29-pré-visualização	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extração de propriedade de fonte	Complemento	✔️	✔️	n/d	n/d
Extração de fórmulas	Complemento	✔️	✔️	n/d	n/d
Extração de alta resolução	Complemento	✔️	✔️	n/d	n/d
Extração de código de barras	Gratuito	✔️	✔️	n/d	n/d
Deteção de idioma	Gratuito	✔️	✔️	n/d	n/d
Pares de valores-chave	Gratuito	✔️	n/d	n/d	n/d
Campos de consulta	Complemento*	✔️	n/d	n/d	n/d

✱ Add-On - Os campos de consulta têm um preço diferente dos outros recursos do complemento. Consulte os preços para obter detalhes.

Formatos de ficheiro suportados

PDF
Imagens: JPEG/JPG, PNG, BMP, TIFF, , HEIF

✱ Os ficheiros do Microsoft Office não são suportados no momento.

Extração de alta resolução

A tarefa de reconhecer texto pequeno de documentos de grande porte, como desenhos de engenharia, é um desafio. Muitas vezes, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variadas. Além disso, o texto pode ser dividido em partes separadas ou conectado com outros símbolos. O Document Intelligence agora suporta a extração de conteúdo desses tipos de documentos com o ocr.highResolution recurso. Você obtém melhor qualidade de extração de conteúdo de documentos A1/A2/A3 habilitando esse recurso de complemento.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extração de fórmulas

A ocr.formula capacidade extrai todas as fórmulas identificadas, como equações matemáticas, na formulas coleção como um objeto de nível superior em content. Dentro contentdo , as fórmulas detetadas são representadas como :formula:. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline ou display, e sua representação LaTeX como value juntamente com suas polygon coordenadas. Inicialmente, as fórmulas aparecem no final de cada página.

Nota

A confidence pontuação é codificada.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extração de propriedade de fonte

O ocr.font recurso extrai todas as propriedades de fonte do texto extraído na styles coleção como um objeto de nível superior em content. Cada objeto de estilo especifica uma única propriedade de fonte, a extensão de texto à qual se aplica e sua pontuação de confiança correspondente. A propriedade style existente é estendida com mais propriedades de fonte, como similarFontFamily para a fonte do texto, fontStyle para estilos como itálico e normal, fontWeight para negrito ou normal, color para cor do texto e backgroundColor para cor da caixa delimitadora de texto.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

API REST

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extração de propriedade de código de barras

O ocr.barcode recurso extrai todos os códigos de barras identificados na barcodes coleção como um objeto de nível superior em content. Dentro do , os contentcódigos de barras detetados são representados como :barcode:. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind e o conteúdo do código de barras incorporado juntamente value com suas polygon coordenadas. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence é codificado para como 1.

Tipos de código de barras suportados

Tipo de código de barras	Exemplo
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` Expandido
`ITF`
`Data Matrix`

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Deteção de idioma

Adicionar o recurso à analyzeResult solicitação prevê o idioma principal detetado para cada linha de texto, juntamente com o confidencelanguages na coleção em analyzeResult.languages

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Pares chave-valor

Em versões anteriores da API, o modelo de documento pré-construído extraía pares chave-valor de formulários e documentos. Com a adição do recurso ao layout pré-construído, o modelo de keyValuePairs layout agora produz os mesmos resultados.

Os pares chave-valor são extensões específicas dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares podem ser o rótulo e o valor que o usuário inseriu para esse campo. Em um documento não estruturado, eles podem ser a data em que um contrato foi executado com base no texto de um parágrafo. O modelo de IA é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documentos, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em alguns casos. Os pares chave-valor são extensões de texto contidas no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Os campos de consulta são um recurso complementar para estender o esquema extraído de qualquer modelo pré-construído ou definir um nome de chave específico quando o nome da chave é variável. Para usar campos de consulta, defina os recursos como queryFields e forneça uma lista separada por vírgulas queryFields de nomes de campos na propriedade.

O Document Intelligence agora suporta extrações de campo de consulta. Com a extração de campo de consulta, você pode adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.
Use campos de consulta quando precisar estender o esquema de um modelo pré-construído ou personalizado ou precisar extrair alguns campos com a saída do layout.
Os campos de consulta são um recurso de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo de caso camel ou caso Pascal para nomes de campo de várias palavras.
Os campos de consulta suportam um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.
Esta versão tem uma nova implementação do recurso de campos de consulta que tem um preço mais baixo do que a implementação anterior e deve ser validada.

Nota

A extração de campo de consulta do Document Intelligence Studio está atualmente disponível com a API de modelos Layout e Prebuilt 2024-02-29-preview2023-10-31-preview e versões posteriores, exceto para os US tax modelos (modelos W2, 1098s e 1099s).

Extração de campo de consulta

Para extração de campo de consulta, especifique os campos que deseja extrair e o Document Intelligence analisa o documento de acordo. Eis um exemplo:

Se você estiver processando um contrato no Document Intelligence Studio, use as 2024-02-29-preview versões ou 2023-10-31-preview :
Você pode passar uma lista de rótulos de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDatee TermEndDate como parte da analyze document solicitação.
O Document Intelligence é capaz de analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.
Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Próximos passos

Saiba mais: Ler modeloModelo de layout

Exemplos de SDK: python

Share via

Recursos adicionais do Document Intelligence

Capacidades

Disponibilidade da versão

Formatos de ficheiro suportados

Extração de alta resolução

API REST

Extração de fórmulas

API REST

Extração de propriedade de fonte

API REST

Extração de propriedade de código de barras

Tipos de código de barras suportados

API REST

Deteção de idioma

API REST

Pares chave-valor

API REST

Campos de consulta

Extração de campo de consulta

API REST

Próximos passos

Recursos adicionais