Recursos adicionais do Document Intelligence
Importante
- As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
- A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
- A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
- E.U.A. Leste
- Oeste dos EUA2
- Europa Ocidental
Este conteúdo aplica-se a:v4.0 (visualização) | Versões anteriores:v3.1 (GA)
Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (visualização)
Nota
Os recursos adicionais estão disponíveis em todos os modelos, exceto no modelo de cartão de visita.
Capacidades
O Document Intelligence suporta capacidades de análise mais sofisticadas e modulares. Use os recursos complementares para estender os resultados e incluir mais recursos extraídos de seus documentos. Alguns recursos adicionais incorrem em um custo extra. Esses recursos opcionais podem ser ativados e desativados dependendo do cenário de extração do documento. Para habilitar um recurso, adicione o nome do recurso associado à propriedade de cadeia de caracteres de features
consulta. Você pode habilitar mais de um recurso de complemento em uma solicitação fornecendo uma lista de recursos separados por vírgula. Os seguintes recursos complementares estão disponíveis para 2023-07-31 (GA)
versões posteriores.
Nota
Nem todos os recursos adicionais são suportados por todos os modelos. Para obter mais informações, consulteextração de dados do modelo.
Os seguintes recursos complementares estão disponíveis para2024-02-29-preview
, 2024-02-29-preview
e versões posteriores:
Nota
A implementação dos campos de consulta na API 2023-10-30-preview é diferente da última versão de visualização. A nova implementação é menos dispendiosa e funciona bem com documentos estruturados.
Disponibilidade da versão
Capacidade de complemento | Add-On/Grátis | 2024-02-29-pré-visualização | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extração de propriedade de fonte | Complemento | ✔️ | ✔️ | n/d | n/d |
Extração de fórmulas | Complemento | ✔️ | ✔️ | n/d | n/d |
Extração de alta resolução | Complemento | ✔️ | ✔️ | n/d | n/d |
Extração de código de barras | Gratuito | ✔️ | ✔️ | n/d | n/d |
Deteção de idioma | Gratuito | ✔️ | ✔️ | n/d | n/d |
Pares de valores-chave | Gratuito | ✔️ | n/d | n/d | n/d |
Campos de consulta | Complemento* | ✔️ | n/d | n/d | n/d |
✱ Add-On - Os campos de consulta têm um preço diferente dos outros recursos do complemento. Consulte os preços para obter detalhes.
Formatos de ficheiro suportados
PDF
Imagens:
JPEG
/JPG
,PNG
,BMP
,TIFF
, ,HEIF
✱ Os ficheiros do Microsoft Office não são suportados no momento.
Extração de alta resolução
A tarefa de reconhecer texto pequeno de documentos de grande porte, como desenhos de engenharia, é um desafio. Muitas vezes, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variadas. Além disso, o texto pode ser dividido em partes separadas ou conectado com outros símbolos. O Document Intelligence agora suporta a extração de conteúdo desses tipos de documentos com o ocr.highResolution
recurso. Você obtém melhor qualidade de extração de conteúdo de documentos A1/A2/A3 habilitando esse recurso de complemento.
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Extração de fórmulas
A ocr.formula
capacidade extrai todas as fórmulas identificadas, como equações matemáticas, na formulas
coleção como um objeto de nível superior em content
. Dentro content
do , as fórmulas detetadas são representadas como :formula:
. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline
ou display
, e sua representação LaTeX como value
juntamente com suas polygon
coordenadas. Inicialmente, as fórmulas aparecem no final de cada página.
Nota
A confidence
pontuação é codificada.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Extração de propriedade de fonte
O ocr.font
recurso extrai todas as propriedades de fonte do texto extraído na styles
coleção como um objeto de nível superior em content
. Cada objeto de estilo especifica uma única propriedade de fonte, a extensão de texto à qual se aplica e sua pontuação de confiança correspondente. A propriedade style existente é estendida com mais propriedades de fonte, como similarFontFamily
para a fonte do texto, fontStyle
para estilos como itálico e normal, fontWeight
para negrito ou normal, color
para cor do texto e backgroundColor
para cor da caixa delimitadora de texto.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Extração de propriedade de código de barras
O ocr.barcode
recurso extrai todos os códigos de barras identificados na barcodes
coleção como um objeto de nível superior em content
. Dentro do , os content
códigos de barras detetados são representados como :barcode:
. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind
e o conteúdo do código de barras incorporado juntamente value
com suas polygon
coordenadas. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence
é codificado para como 1.
Tipos de código de barras suportados
Tipo de código de barras | Exemplo |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Expandido |
|
ITF |
|
Data Matrix |
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Deteção de idioma
Adicionar o recurso à analyzeResult
solicitação prevê o idioma principal detetado para cada linha de texto, juntamente com o confidence
languages
na coleção em analyzeResult
.languages
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Pares chave-valor
Em versões anteriores da API, o modelo de documento pré-construído extraía pares chave-valor de formulários e documentos. Com a adição do recurso ao layout pré-construído, o modelo de keyValuePairs
layout agora produz os mesmos resultados.
Os pares chave-valor são extensões específicas dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares podem ser o rótulo e o valor que o usuário inseriu para esse campo. Em um documento não estruturado, eles podem ser a data em que um contrato foi executado com base no texto de um parágrafo. O modelo de IA é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documentos, formatos e estruturas.
As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em alguns casos. Os pares chave-valor são extensões de texto contidas no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Campos de consulta
Os campos de consulta são um recurso complementar para estender o esquema extraído de qualquer modelo pré-construído ou definir um nome de chave específico quando o nome da chave é variável. Para usar campos de consulta, defina os recursos como queryFields
e forneça uma lista separada por vírgulas queryFields
de nomes de campos na propriedade.
O Document Intelligence agora suporta extrações de campo de consulta. Com a extração de campo de consulta, você pode adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.
Use campos de consulta quando precisar estender o esquema de um modelo pré-construído ou personalizado ou precisar extrair alguns campos com a saída do layout.
Os campos de consulta são um recurso de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo de caso camel ou caso Pascal para nomes de campo de várias palavras.
Os campos de consulta suportam um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.
Esta versão tem uma nova implementação do recurso de campos de consulta que tem um preço mais baixo do que a implementação anterior e deve ser validada.
Nota
A extração de campo de consulta do Document Intelligence Studio está atualmente disponível com a API de modelos Layout e Prebuilt 2024-02-29-preview
2023-10-31-preview
e versões posteriores, exceto para os US tax
modelos (modelos W2, 1098s e 1099s).
Extração de campo de consulta
Para extração de campo de consulta, especifique os campos que deseja extrair e o Document Intelligence analisa o documento de acordo. Eis um exemplo:
Se você estiver processando um contrato no Document Intelligence Studio, use as
2024-02-29-preview
versões ou2023-10-31-preview
:Você pode passar uma lista de rótulos de campo como
Party1
,Party2
,TermsOfUse
,PaymentTerms
,PaymentDate
eTermEndDate
como parte daanalyze document
solicitação.O Document Intelligence é capaz de analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.
Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.
API REST
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Próximos passos
Saiba mais: Ler modeloModelo de layout
Exemplos de SDK: python