Modelo neural personalizado do Document Intelligence

Artigo
09/02/2024

Importante

As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a API REST versão 2024-07-31-preview.
A versão de pré-visualização pública 2024-07-31-preview está atualmente disponível apenas nas seguintes regiões do Azure. Observe que o modelo generativo personalizado (extração de campo de documento) no AI Studio só está disponível na região Centro-Norte dos EUA:
- E.U.A. Leste
- Oeste dos EUA2
- Europa Ocidental
- Centro-Norte dos EUA

Este conteúdo aplica-se a: v4.0 (pré-visualização) | Versões anteriores: v3.1 (GA) v3.0 (GA)

Este conteúdo aplica-se a: v3.1 (GA) | Última versão: v4.0 (pré-visualização) | Versões anteriores: v3.0

Este conteúdo aplica-se a: v3.0 (GA) | Últimas versões: v4.0 (pré-visualização) v3.1

Modelos de documentos neurais personalizados ou modelos neurais são um tipo de modelo profundamente aprendido que combina recursos de layout e linguagem para extrair com precisão campos rotulados de documentos. O modelo neural personalizado de base é treinado em vários tipos de documentos, o que o torna adequado para ser treinado para extrair campos de documentos estruturados e semiestruturados. Modelos neurais personalizados estão disponíveis na v3.0 e modelos posteriores A tabela abaixo lista os tipos de documentos comuns para cada categoria:

Documentos	Exemplos
estruturado	inquéritos, questionários
semiestruturado	faturas, ordens de compra

Os modelos neurais personalizados compartilham o mesmo formato e estratégia de rotulagem que os modelos de modelo personalizados. Atualmente, os modelos neurais personalizados suportam apenas um subconjunto dos tipos de campo suportados por modelos de modelo personalizados.

Capacidades do modelo

Importante

A partir da versão 2024-02-29-preview da API, os modelos neurais personalizados adicionam suporte para campos sobrepostos e confiança nas células da tabela.

Atualmente, os modelos neurais personalizados suportam pares chave-valor e marcas de seleção e campos estruturados (tabelas).

Campos de formulário	Marcas de seleção	Campos tabulares	Assinatura	Rotulagem de regiões	Campos sobrepostos
Suportado	Suportado	Suportado	Não suportado	Suportado ¹	Suportado ²

1 Os rótulos de região em modelos neurais personalizados usam os resultados da API de layout para a região especificada. Esse recurso é diferente dos modelos de modelo em que, se nenhum valor estiver presente, o texto é gerado no momento do treinamento.
2 Campos sobrepostos são suportados a partir da versão 2024-02-29-previewda API REST. Os campos sobrepostos têm alguns limites. Para obter mais informações, consulte campos sobrepostos.

Modo de construção

A Build operação suporta modelos personalizados de modelo e neurais . As versões anteriores da API REST e das bibliotecas de cliente suportavam apenas um único modo de compilação que agora é conhecido como o modo de modelo .

Os modelos neurais suportam documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas podem variar em aparência entre as empresas. Para obter mais informações, consulte Modo de compilação de modelo personalizado.

Campos sobrepostos

Com o lançamento de versões 2024-02-29-preview de API e posteriores, os modelos neurais personalizados suportam campos sobrepostos:

Campos sobrepostos

Com o lançamento das versões da API 2024-07-31-preview e posteriores, os modelos neurais personalizados suportarão campos sobrepostos:

Para usar os campos sobrepostos, seu conjunto de dados precisa conter pelo menos uma amostra com a sobreposição esperada. Para rotular uma sobreposição, use o rótulo de região para designar cada uma das extensões de conteúdo (com a sobreposição) para cada campo. A rotulagem de uma sobreposição com a seleção de campos (realçando um valor) falha no Studio, pois a rotulagem de região é a única ferramenta de rotulagem suportada para indicar sobreposições de campos. O suporte de sobreposição inclui:

Sobreposição completa. O mesmo conjunto de tokens é rotulado para dois campos diferentes.
Sobreposição parcial. Alguns tokens pertencem a ambos os campos, mas há tokens que são apenas parte de um campo ou outro.

Os campos sobrepostos têm alguns limites:

Qualquer token ou palavra só pode ser rotulado como dois campos.
Os campos sobrepostos numa tabela não podem abranger as linhas da tabela.
Os campos sobrepostos só podem ser reconhecidos se pelo menos uma amostra no conjunto de dados contiver rótulos sobrepostos para esses campos.

Para usar campos sobrepostos, rotule seu conjunto de dados com as sobreposições e treine o modelo com a versão 2024-02-29-preview da API ou posterior.

Campos tabulares

Com o lançamento das versões de API 2022-06-30-preview e posteriores, os modelos neurais personalizados suportam campos tabulares (tabelas) para analisar dados de tabelas, linhas e células com mais confiança:

Os modelos treinados com a versão da API 2022-06-30-preview ou posterior aceitarão rótulos de campo tabulares.
Os documentos analisados com modelos neurais personalizados usando a API versão 2022-06-30-preview ou posterior produzirão campos tabulares agregados nas tabelas.
Os resultados podem ser encontrados na matriz do analyzeResult objeto que é retornada documents após uma operação de análise.

Os campos tabulares suportam tabelas de páginas cruzadas por padrão:

Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela nas diferentes páginas em uma única tabela.
Como prática recomendada, certifique-se de que seu conjunto de dados contenha algumas amostras das variações esperadas. Por exemplo, inclua amostras em que a tabela completa está numa única página e em que as tabelas abrangem duas ou mais páginas.

Os campos tabulares também são úteis ao extrair informações repetidas dentro de um documento que não é reconhecido como uma tabela. Por exemplo, uma seção repetitiva de experiências de trabalho em um currículo pode ser rotulada e extraída como um campo tabular.

Os campos tabulares fornecem confiança na tabela, linha e célula começando com a 2024-02-29-preview API:

Tabelas fixas ou dinâmicas adicionam suporte de confiança para os seguintes elementos:
- Confiança na tabela, uma medida de quão precisamente toda a tabela é reconhecida.
- Confiança de linha, uma medida de reconhecimento de uma linha individual.
- Confiança celular, uma medida de reconhecimento de uma célula individual.
A abordagem recomendada é revisar a precisão de cima para baixo, começando com a tabela primeiro, seguida pela linha e, em seguida, pela célula. Veja as pontuações de confiança e precisão para saber mais sobre a confiança na tabela, linha e célula.

Idiomas e localidades suportados

Consulte o nosso Suporte a Idiomas — modelos personalizados para obter uma lista completa dos idiomas suportados.

Regiões suportadas

A partir de 18 de outubro de 2022, o treinamento de modelo neural personalizado do Document Intelligence só estará disponível nas seguintes regiões do Azure até novo aviso:

Leste da Austrália
Sul do Brasil
Canadá Central
Índia Central
E.U.A. Central
Ásia Leste
E.U.A. Leste
E.U.A. Leste 2
França Central
Leste do Japão
E.U.A. Centro-Sul
Sudeste Asiático
Sul do Reino Unido
Europa Ocidental
E.U.A. Oeste 2
US Gov - Arizona
US Gov - Virginia

Gorjeta

Você pode copiar um modelo treinado em uma das regiões selecionadas listadas para qualquer outra região e usá-lo de acordo.

Use a API REST ou o Document Intelligence Studio para copiar um modelo para outra região.

Gorjeta

Você pode copiar um modelo treinado em uma das regiões selecionadas listadas para qualquer outra região e usá-lo de acordo.

Use a API REST ou o Document Intelligence Studio para copiar um modelo para outra região.

Gorjeta

Você pode copiar um modelo treinado em uma das regiões selecionadas listadas para qualquer outra região e usá-lo de acordo.

Use a API REST ou o Document Intelligence Studio para copiar um modelo para outra região.

Requisitos de entrada

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: jpeg/ `jpg`, `png`, `bmp`, `tiff`,`heif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) e HTML
Lida	✔	✔	✔
Esquema	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview, ou posterior)
Documento Geral	✔	✔
Pré-criado	✔	✔
Neural personalizado	✔	✔

✱ Os ficheiros do Microsoft Office não são atualmente suportados para outros modelos ou versões.

Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a um texto de cerca 8de -ponto a 150 pontos por polegada.
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

Melhores práticas

Os modelos neurais personalizados diferem dos modelos de modelo personalizados de algumas maneiras diferentes. O modelo ou modelo personalizado depende de um modelo visual consistente para extrair os dados rotulados. Modelos neurais personalizados suportam campos estruturados e semiestruturados para extrair. Ao escolher entre os tipos de modelo, comece com um modelo neural e teste para determinar se ele suporta suas necessidades funcionais.

Lidando com variações - Os modelos neurais personalizados podem generalizar em diferentes formatos de um único tipo de documento. Como prática recomendada, crie um modelo único para todas as variações de um tipo de documento. Adicione pelo menos cinco amostras rotuladas para cada uma das diferentes variações ao conjunto de dados de treinamento.
Nomenclatura de campo - Quando você rotula os dados, rotular o campo relevante para o valor melhora a precisão dos pares chave-valor extraídos. Por exemplo, para um valor de campo que contenha o ID do fornecedor, considere nomear o campo supplier_id. Os nomes dos campos devem estar no idioma do documento.
Rotular valores contíguos - Os tokens de valor/palavras de um campo devem ser:
- Numa sequência consecutiva em ordem de leitura natural, sem intercalar com outros campos
- Em uma região que não abrange outros campos
Dados representativos - Os valores nos casos de formação devem ser diversos e representativos. Por exemplo, se um campo for nomeado data, os valores para esse campo devem ser uma data. O valor sintético, como uma cadeia de caracteres aleatória, pode afetar o desempenho do modelo.

Limitações Atuais

O modelo neural personalizado não reconhece valores divididos entre limites de página.
Tipos de campo neurais personalizados sem suporte são ignorados se um conjunto de dados rotulado para modelos de modelo personalizados for usado para treinar um modelo neural personalizado.
Os modelos neurais personalizados são limitados a 20 operações de compilação por mês. Abra uma solicitação de suporte se precisar que o limite seja aumentado. Para obter mais informações, consulte Cotas e limites do serviço Document Intelligence.

Formar um modelo

Modelos neurais personalizados estão disponíveis na v3.0 e modelos posteriores.

Tipo de Documento	API REST	SDK	Modelos de etiquetas e testes
Documento personalizado	Inteligência Documental 3.1	SDK de Inteligência Documental	Estúdio de Inteligência de Documentação

A Build operação para treinar modelo suporta uma nova buildMode propriedade, para treinar um modelo neural personalizado, defina o buildMode como neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Faturação

A partir da versão 2024-07-31-preview, você pode treinar seu modelo neural personalizado por durações mais longas do que os 30 minutos padrão. As versões anteriores são limitadas a 30 minutos por instância de treinamento, com um total de 20 instâncias de treinamento gratuitas por mês. Agora, com 2024-07-31-previewo , você pode receber 10 horas de treinamento de modelo gratuito e treinar um modelo por até 10 horas.

Você pode optar por gastar todas as 10 horas livres em uma única compilação de modelo com um grande conjunto de dados ou utilizá-la em várias compilações ajustando o valor de duração máxima para a build operação especificando maxTrainingHours:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Importante

Se você quiser treinar modelos neurais adicionais ou treinar modelos por um período de tempo maior que exceda 10 horas, aplicam-se taxas de cobrança. Para obter detalhes sobre os encargos de cobrança, consulte a página de preços.
Você pode optar por este serviço de treinamento pago definindo o maxTrainingHours número máximo de horas desejado. Chamadas de API sem orçamento, mas com o maxTrainingHours conjunto como mais de 10 horas falharão.
Como cada compilação leva uma quantidade diferente de tempo, dependendo do tipo e tamanho do conjunto de dados de treinamento, o faturamento é calculado para o tempo real gasto no treinamento do modelo neural, com um mínimo de 30 minutos por trabalho de treinamento.
Este recurso de treinamento pago permite treinar conjuntos de dados maiores por períodos mais longos com flexibilidade nas horas de treinamento.


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Nota

Para versões v3.1 (2023-07-31) de Document Intelligence e v3.0 (2022-08-31), o treinamento pago do modelo neural personalizado não está habilitado. Para as duas versões mais antigas, você terá um máximo de 30 minutos de duração de treinamento por modelo. Se você quiser treinar mais de 20 instâncias de modelo, poderá criar um tíquete de suporte do Azure para aumentar o limite de treinamento.

Faturação

Para versões v3.1 (2023-07-31) and v3.0 (2022-08-31)de Document Intelligence, você recebe um máximo de 30 minutos de duração de treinamento por modelo e um máximo de 20 treinamentos gratuitos por mês. Se você quiser treinar mais de 20 instâncias de modelo, poderá criar um tíquete de suporte do Azure para aumentar o limite de treinamento. Para o tíquete de suporte do Azure, insira no summary campo: Increase Document Intelligence custom neural training (TPS) limit.

Importante

Ao aumentar o limite de treinamento, observe que 2 sessões de treinamento de modelo neural personalizado serão consideradas como 1 hora de treinamento. Para obter mais detalhes sobre os preços para aumentar o número de sessões de treinamento, consulte a página de preços.
O tíquete de suporte do Azure para aumento de limite de treinamento só pode ser aplicado em um nível de recurso, não em um nível de assinatura. Você pode solicitar um aumento de limite de treinamento para um único recurso de Document Intelligence especificando seu ID de recurso e região no tíquete de suporte.

Se você quiser treinar modelos por períodos superiores a 30 minutos, apoiamos treinamento pago com nossa versão mais recente, v4.0 (2024-07-31-preview). Usando a versão mais recente, você pode treinar seu modelo por um período mais longo para processar documentos maiores. Para obter mais informações sobre treinamento pago, consulte Faturamento v4.0.

Faturação

Importante

Ao aumentar o limite de treinamento, observe que 2 sessões de treinamento de modelo neural personalizado serão consideradas como 1 hora de treinamento. Para obter mais detalhes sobre os preços para aumentar o número de sessões de treinamento, consulte a página de preços.
O tíquete de suporte do Azure para aumento de limite de treinamento só pode ser aplicado em um nível de recurso, não em um nível de assinatura. Você pode solicitar um aumento de limite de treinamento para um único recurso de Document Intelligence especificando seu ID de recurso e região no tíquete de suporte.

Se você quiser treinar modelos por períodos superiores a 30 minutos, apoiamos treinamento pago com nossa versão mais recente, v4.0 (2024-07-31). Usando a versão mais recente, você pode treinar seu modelo por um período mais longo para processar documentos maiores. Para obter mais informações sobre treinamento pago, consulte Faturamento v4.0.

Próximos passos

Aprenda a criar e compor modelos personalizados:

Criar um modelopersonalizado Compor modelos personalizados

Partilhar via

Modelo neural personalizado do Document Intelligence

Capacidades do modelo

Modo de construção

Campos sobrepostos

Campos sobrepostos

Campos tabulares

Idiomas e localidades suportados

Regiões suportadas

Requisitos de entrada

Melhores práticas

Limitações Atuais

Formar um modelo

Faturação

Faturação

Faturação

Próximos passos

Comentários

Recursos adicionais