Modelo neural personalizado do Informação de Documentos

Artigo
03/13/2024

Importante

As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
Leste dos EUA
Oeste dos EUA 2
Oeste da Europa

Este conteúdo se aplica a:v4.0 (versão prévia) | Versões anteriores:v3.1 (disponibilidade geral)v3.0 (disponibilidade geral)

Este conteúdo se aplica a:v3.1 (GA) | Versão mais recente:v4.0 (versão prévia) | Versões anteriores:v3.0

Este conteúdo se aplica a:v3.0 (disponibilidade geral) | Versão mais recente:v4.0 (versão prévia)v3.1

Modelos de documentos neurais personalizados ou modelos neurais consistem em um modelo de aprendizado profundo que combina recursos de layout e idioma para extrair com precisão os campos rotulados de documentos. O modelo neural personalizado base é treinado em vários tipos de documentos que o torna adequado para ser treinado para extrair campos de documentos estruturados, semiestruturados e não estruturados. Modelos neurais personalizados estão disponíveis nos modelos v3.0 e posteriores. A tabela abaixo lista tipos de documentação comuns para cada categoria:

Documentos	Exemplos
Estruturados	pesquisas, questionários
Semiestruturados	faturas, ordens de compra
Não estruturados	contratos, letras

Os modelos neurais personalizados compartilham o mesmo formato e estratégia de rotulagem que os modelos personalizados. Atualmente, os modelos neurais personalizados dão suporte somente a um subconjunto dos tipos de campo com suporte pelos modelos de template personalizados.

Funcionalidades de modelo

Importante

A partir da versão da API 2024-02-29-preview modelos neurais personalizados adicionam suporte para sobreposição de campos e confiança de célula de tabela.

Atualmente, os modelos neurais personalizados suportam apenas pares de chave-valor e marcas de seleção e campos estruturados (tabelas). Versões futuras incluem suporte para assinaturas.

Campos de formulário	Marcas de seleção	Campos tabulares	Assinatura	Region	Campos sobrepostos
Com suporte	Compatível	Com suporte	Sem suporte	Com suporte ¹	Com suporte ²

Os rótulos da região ¹ em modelos neurais personalizados usam os resultados da API de layout para a região especificada. Esse recurso é diferente dos modelos em que, se nenhum valor estiver presente, o texto é gerado no momento do treinamento. ² Campos de sobreposição detêm suporte começando com a versão da API REST 2024-02-29-preview. Campos sobrepostos têm alguns limites. Para obter mais informações, consultecampos sobrepostos.

Modo de criação

A operação de criação de modelo personalizado dá suporte a modelos personalizados modelo e neural. As versões anteriores da API REST e das bibliotecas de cliente só dão suporte a um único modo de build que agora é conhecido como o modo de modelo.

Os modelos neurais dão suporte a documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, pois eles compartilham as mesmas informações, mas podem variar na aparência entre as empresas. Para obter mais informações, confiraModo de build do modelo personalizado.

Idiomas e localidades com suporte

Confira nosso página Suporte a Idiomas – modelos personalizados, para obter uma lista completa dos idiomas com suporte.

Campos sobrepostos

Com o lançamento de versões da API 2024-02-29-versão prévia e posteriores, os modelos neurais personalizados darão suporte a campos sobrepostos:

Para usar os campos sobrepostos, seu conjunto de dados precisa conter pelo menos um exemplo com a sobreposição esperada. Para rotular uma sobreposição, use a rotulagem de região para designar cada um dos intervalos de conteúdo (com a sobreposição) para cada campo. Rotular uma sobreposição com a seleção de campo (realçando um valor) falhará no estúdio, pois a rotulagem de região é a única ferramenta de rotulagem com suporte para indicar sobreposições de campo. O suporte à sobreposição inclui:

Sobreposição completa. O mesmo conjunto de tokens é rotulado para dois campos diferentes.
Sobreposição parcial. Alguns tokens pertencem a ambos os campos, mas há tokens que são apenas parte de um campo ou outro.

Campos sobrepostos têm alguns limites:

Qualquer token ou palavra só pode ser rotulado como dois campos.
campos sobrepostos em uma tabela não podem abranger linhas de tabela.
Campos sobrepostos só poderão ser reconhecidos se pelo menos um exemplo no conjunto de dados contiver rótulos sobrepostos para esses campos.

Para usar campos sobrepostos, rotule o conjunto de dados com as sobreposições e treine o modelo com a versão da API 2024-02-29-preview ou posterior.

Campos tabulares adicionam confiança de tabela, linha e célula

Com o lançamento da API versão 2022-06-30-preview, os modelos neurais personalizados darão suporte a campos tabulares (tabelas):

Os modelos treinados com a API versão 2022-08-31 ou posterior aceitarão rótulos de campo tabulares.
Documentos analisados com modelos neurais personalizados usando a API versão 2022-06-30-preview ou posterior produzirão campos tabulares agregados entre as tabelas.
Os resultados podem ser encontrados na matriz documents do objeto analyzeResult que é retornada após uma operação de análise.

Os campos tabulares dão suporte a tabelas entre páginas por padrão:

Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela entre as diferentes páginas da única tabela.
Como prática recomendada, verifique se o conjunto de dados contém exemplos das variações esperadas. Por exemplo, inclua exemplos em que a tabela inteira está em apenas uma página, e outros em que as tabelas abrangem duas ou mais páginas.

Campos tabulares também são úteis ao extrair informações recorrentes de um documento que não é reconhecido como uma tabela. Por exemplo, uma seção recorrente de experiências de trabalho em um currículo pode ser rotulada e extraída como um campo tabular.

Os campos tabulares fornecem tabela, linha e confiança de célula começando com a API 2024-02-29-preview :

Tabelas fixas ou dinâmicas adicionam suporte de confiança para os seguintes elementos:
- Confiança da tabela, uma medida de quão precisa a tabela inteira é reconhecida.
- Confiança de linha, uma medida de reconhecimento de uma linha individual.
- Confiança de célula, uma medida de reconhecimento de uma célula individual.
A abordagem recomendada é examinar a precisão de uma maneira de cima para baixo, começando pela tabela primeiro, seguida pela linha e, em seguida, pela célula.

Consulte pontuações de confiança e precisão para saber mais sobre a tabela, a linha e a confiança da célula.

Regiões com suporte

A partir de 18 de outubro de 2022, o treinamento de modelos neurais personalizados da Informação de Documentos só estará disponível nas seguintes regiões do Azure até novo aviso:

Leste da Austrália
Brazil South
Canadá Central
Índia Central
Centro dos EUA
Leste da Ásia
Leste dos EUA
Leste dos EUA 2
França Central
Leste do Japão
Centro-Sul dos Estados Unidos
Sudeste Asiático
Sul do Reino Unido
Europa Ocidental
Oeste dos EUA 2
Governo dos EUA do Arizona
Gov. dos EUA – Virgínia

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Dica

Você pode copiar um modelo treinado em uma das regiões listadas para qualquer outra região e usá-lo.

Utilize a API REST ou o Estúdio de Informação de Documentos para copiar um modelo para outra região.

Requisitos de entrada

Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.

Formatos de arquivo com suporte:

Modelar	PDF	Imagem: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) e HTML
Ler	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-versão prévia, 2023-10-31-versão prévia ou posterior)
Documento geral	✔	✔
Predefinida	✔	✔
Neural personalizado	✔	✔

✱ Atualmente, não há suporte para arquivos do Microsoft Office para outros modelos ou versões.

Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a cerca de 8-texto de ponto a 150 pontos por polegada.
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB com no máximo 10.000 páginas.

Práticas recomendadas

Os modelos neurais personalizados diferem dos modelos de template personalizados de formas diferentes. O modelo personalizado depende de um modelo visual consistente para extrair os dados rotulados. Os modelos neurais personalizados dão suporte a documentos estruturados, semiestruturados e não estruturados para extrair campos. Quando estiver escolhendo entre os dois tipos de modelo, comece com um modelo neural e teste para determinar se ele atende às suas necessidades funcionais.

Tratando as variações

Modelos neurais personalizados podem generalizar em diferentes formatos de um único tipo de documento. Como melhor prática, crie um modelo único para todas as variações de um tipo de documento. Adicione pelo menos cinco exemplos rotulados para cada uma das variações diferentes aos conjuntos de dados de treinamento.

Nomeação de campo

Quando você rotula os dados, rotular o campo relevante para o valor melhora a precisão dos pares de chave-valor extraídos. Por exemplo, para um valor de campo que contenha a ID do fornecedor, considere nomear o campo como supplier_id. Os nomes de campo devem estar no idioma do documento.

Rotulagem de valores contíguos

Tokens/palavras de valor de um campo devem ser:

A sequência consecutiva em ordem natural de leitura sem intercalação com outros campos
Em uma região que não abrange outros campos

Dados representativos

Os valores em casos de treinamento devem ser diversos e representativos. Por exemplo, se um campo for denominado data, os valores desse campo deverão ser uma data. O valor sintético, como uma cadeia de caracteres aleatória, pode afetar o desempenho do modelo.

Limitações atuais

O modelo neural personalizado não reconhece valores divididos entre limites de página.
Os tipos de campos neurais personalizados sem suporte são ignorados se um conjunto de dados rotulado para modelos de template personalizados for usado para treinar um modelo neural personalizado.
Os modelos neurais personalizados são limitados a 20 operações de build por mês. Abra uma solicitação de suporte se você precisar aumentar esse limite. Para obter mais informações, consulte Cotas e limites do serviço de Informação de Documentos.

Treinando um modelo

Modelos neurais personalizados estão disponíveis nos modelos v3.0 e posteriores.

Tipo de documento	API REST	.	Modelos de rótulo e teste
Documento personalizado	Informação de Documentos 3.1	SDK da Informação de Documentos	Estúdio da Informação de Documentos

A operação de build para treinar o modelo dá suporte a uma nova propriedade buildMode, para treinar um modelo neural personalizado, definir o buildMode como neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Próximas etapas

Saiba como criar e compor modelos personalizados:

Criar um modelo personalizadoCompor modelos personalizados

Modelo neural personalizado do Informação de Documentos

Funcionalidades de modelo

Modo de criação

Idiomas e localidades com suporte

Campos sobrepostos

Campos tabulares adicionam confiança de tabela, linha e célula

Regiões com suporte

Requisitos de entrada

Práticas recomendadas

Tratando as variações

Nomeação de campo

Rotulagem de valores contíguos

Dados representativos

Limitações atuais

Treinando um modelo

Próximas etapas

Recursos adicionais