Modelos personalizados de Document Intelligence

Artigo
10/16/2024

Importante

As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a API REST versão 2024-07-31-preview.
A versão de pré-visualização pública 2024-07-31-preview está atualmente disponível apenas nas seguintes regiões do Azure. Observe que o modelo generativo personalizado (extração de campo de documento) no AI Studio só está disponível na região Centro-Norte dos EUA:
- E.U.A. Leste
- Oeste dos EUA2
- Europa Ocidental
- Centro-Norte dos EUA

Este conteúdo aplica-se a: v4.0 (pré-visualização) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Este conteúdo aplica-se a: v3.1 (GA) | Última versão: v4.0 (pré-visualização) | Versões anteriores: v3.0 v2.1

Este conteúdo aplica-se a: v3.0 (GA) | Últimas versões: v4.0 (preview) v3.1 | Versão anterior: v2.1

Este conteúdo aplica-se a: v2.1 | Última versão: v4.0 (pré-visualização)

O Document Intelligence usa tecnologia avançada de aprendizado de máquina para identificar documentos, detetar e extrair informações de formulários e documentos e retornar os dados extraídos em uma saída JSON estruturada. Com o Document Intelligence, você pode usar modelos de análise de documentos, pré-construídos/pré-treinados ou seus modelos personalizados autônomos treinados.

Os modelos personalizados agora incluem modelos de classificação personalizados para cenários em que você precisa identificar o tipo de documento antes de invocar o modelo de extração. Os modelos de classificadores estão disponíveis a partir da 2023-07-31 (GA) API. Um modelo de classificação pode ser emparelhado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos para o seu negócio. Modelos de extração personalizados autônomos podem ser combinados para criar modelos compostos.

Tipos de modelo de documento personalizado

Os modelos de documentos personalizados podem ser de dois tipos, modelo ou formulário personalizado e modelos de documentos neurais ou personalizados personalizados. O processo de rotulagem e treinamento para ambos os modelos é idêntico, mas os modelos diferem da seguinte forma:

Modelos de extração personalizados

Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que você deseja extrair e treine o modelo no conjunto de dados rotulado. Você só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.

Modelo neural personalizado

Importante

A partir da API da versão 4.0 (2024-02-29-preview), os modelos neurais personalizados agora suportam campos sobrepostos e confiança em nível de tabela, linha e célula.

O modelo neural personalizado (documento personalizado) usa modelos de aprendizagem profunda e modelo base treinado em uma grande coleção de documentos. Esse modelo é então ajustado ou adaptado aos seus dados quando você treina o modelo com um conjunto de dados rotulado. Os modelos neurais personalizados suportam a extração de campos de dados importantes de documentos estruturados, semiestruturados e não estruturados. Ao escolher entre os dois tipos de modelo, comece com um modelo neural para determinar se ele atende às suas necessidades funcionais. Consulte modelos neurais para saber mais sobre modelos de documentos personalizados.

Modelo de modelo personalizado

O modelo personalizado ou modelo de formulário personalizado depende de um modelo visual consistente para extrair os dados rotulados. As variações na estrutura visual dos documentos afetam a precisão do modelo. Formulários estruturados, como questionários ou aplicativos, são exemplos de modelos visuais consistentes.

Seu conjunto de treinamento consiste em documentos estruturados onde a formatação e o layout são estáticos e constantes de uma instância de documento para outra. Os modelos de modelo personalizados suportam pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelo e pode ser treinado em documentos em qualquer um dos idiomas suportados. Para obter mais informações, consulte modelos de modelo personalizados.

Se a linguagem de seus documentos e cenários de extração oferecer suporte a modelos neurais personalizados, recomendamos que você use modelos neurais personalizados em vez de modelos de modelo para maior precisão.

Gorjeta

Para confirmar se seus documentos de treinamento apresentam um modelo visual consistente, remova todos os dados inseridos pelo usuário de cada formulário no conjunto. Se os formulários em branco forem idênticos na aparência, eles representam um modelo visual consistente.

Para obter mais informações, consulte Interpretar e melhorar a precisão e a confiança para modelos personalizados.

Requisitos de entrada

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: `jpeg/jpg`, `png`, `bmp`, `tiff`, , `heif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Lida	✔	✔	✔
Esquema	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview, e posterior)
Documento Geral	✔	✔
Pré-criado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

✱ Os ficheiros do Microsoft Office não são atualmente suportados para outros modelos ou versões.

Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a um texto de cerca 8de -ponto a 150 pontos por polegada.
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

Dados de treinamento ideais

Os dados de entrada de treinamento são a base de qualquer modelo de aprendizado de máquina. Ele determina a qualidade, precisão e desempenho do modelo. Portanto, é crucial criar os melhores dados de entrada de treinamento possíveis para o seu projeto de Document Intelligence. Ao usar o modelo personalizado de Document Intelligence, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos de forma eficaz:

Sempre que possível, use PDFs baseados em texto em vez de imagem. Uma maneira de identificar um PDF baseado em imagem* é tentar selecionar texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem e não em texto.
Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).
Use formulários que tenham todos os campos disponíveis preenchidos.
Use formulários com valores diferentes em cada campo.
Use um conjunto de dados maior (mais de cinco documentos de treinamento) se suas imagens forem de baixa qualidade.
Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.
Considere segmentar seu conjunto de dados em pastas, onde cada pasta é um modelo exclusivo. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade. A precisão do modelo pode diminuir quando você tem diferentes formatos analisados com um único modelo.
Considere segmentar seu conjunto de dados para treinar vários modelos se o formulário tiver variações com formatos e quebras de página. Os formulários personalizados dependem de um modelo visual consistente.
Certifique-se de ter um conjunto de dados equilibrado contabilizando formatos, tipos de documentos e estrutura.

Modo de construção

A build custom model operação adiciona suporte para o modelo e modelos personalizados neurais . As versões anteriores da API REST e das bibliotecas de cliente suportavam apenas um único modo de compilação que agora é conhecido como o modo de modelo .

Os modelos de modelo só aceitam documentos que tenham a mesma estrutura básica de página — uma aparência visual uniforme — ou o mesmo posicionamento relativo de elementos dentro do documento.
Os modelos neurais suportam documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas variam em aparência entre as empresas.

Esta tabela fornece links para as referências SDK da linguagem de programação do modo de compilação e exemplos de código no GitHub:

Linguagem de programação	Referência do SDK	Exemplo de código
C#/.NET	Estrutura DocumentBuildMode	Sample_BuildCustomModelAsync.cs
Java	DocumentBuildMode Classe	BuildModel.java
JavaScript	Tipo DocumentBuildMode	buildModel.js
Python	DocumentBuildMode Enum	sample_build_model.py

Comparar recursos do modelo

A tabela a seguir compara o modelo personalizado e os recursos neurais personalizados:

Caraterística	Modelo personalizado (formulário)	Neural personalizado (documento)
Estrutura dos documentos	Modelo, formulário e estrutura	Estruturado, semi-estruturado e não estruturado
Tempo de preparação	1 a 5 minutos	20 minutos a 1 hora
Extração de dados	Pares chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas	Pares chave-valor, marcas de seleção e tabelas
Campos sobrepostos	Não suportado	Suportado
Variações de documentos	Requer um modelo por cada variação	Usa um único modelo para todas as variações
Suporte de idiomas	Modelo personalizado de suporte de idioma	Suporte de idioma neural personalizado

Modelo de classificação personalizado

A classificação de documentos é um novo cenário suportado pela Document Intelligence com a 2023-07-31 API (v3.1 GA). A API do classificador de documentos suporta cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos suportados pelo seu aplicativo. O arquivo de entrada para o modelo de classificação pode conter vários documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, consulte Modelos de classificação personalizados.

Nota

A partir da versão da API, a classificação de documentos agora oferece suporte a 2024-02-29-preview tipos de documentos do Office para classificação. Esta versão da API também introduz treinamento incremental para o modelo de classificação.

Ferramentas de modelo personalizadas

O Document Intelligence v3.1 e modelos posteriores suportam as seguintes ferramentas, aplicativos e bibliotecas, programas e bibliotecas:

Caraterística	Recursos	Model ID
Modelo personalizado	• Document Intelligence Studio • API REST • C# SDK • Python SDK	ID do modelo personalizado

Ciclo de vida do modelo personalizado

O ciclo de vida de um modelo personalizado depende da versão da API usada para treiná-lo. Se a versão da API for uma versão de disponibilidade geral (GA), o modelo personalizado terá o mesmo ciclo de vida que essa versão. O modelo personalizado não está disponível para inferência quando a versão da API é preterida. Se a versão da API for uma versão de visualização, o modelo personalizado terá o mesmo ciclo de vida que a versão de visualização da API.

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Nota

Tipos de modelo personalizados , modelos neurais e personalizados estão disponíveis com as APIs do Document Intelligence versão v3.1 e v3.0.

Caraterística	Recursos
Modelo personalizado	• Ferramenta de etiquetagem de Inteligência Documental• API REST • SDK da biblioteca do cliente• Contêiner Docker de Inteligência Documental

Criar um modelo personalizado

Extraia dados de seus documentos específicos ou exclusivos usando modelos personalizados. Você precisa dos seguintes recursos:

Uma subscrição do Azure. Você pode criar um gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Ferramenta de etiquetagem de amostra

Gorjeta

Para uma experiência melhorada e uma qualidade de modelo avançada, experimente o Document Intelligence v3.0 Studio.
O v3.0 Studio suporta qualquer modelo treinado com dados rotulados v2.1.
Você pode consultar o guia de migração de API para obter informações detalhadas sobre a migração da v2.1 para a v3.0.
Veja nossa API REST ou C#, Java, JavaScript ou Python SDK .. /quickstarts para começar com a versão v3.0.

A ferramenta Document Intelligence Sample Labeling é uma ferramenta de código aberto que permite testar os recursos mais recentes de Document Intelligence e OCR (Optical Character Recognition).
Experimente o início rápido da ferramenta Etiquetagem de Amostra para começar a criar e usar um modelo personalizado.

Estúdio de Inteligência de Documentação

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0.

Na página inicial do Document Intelligence Studio , selecione Modelos de extração personalizados.
Em Meus Projetos, selecione Criar um projeto.
Preencha os campos de detalhes do projeto.
Configure o recurso de serviço adicionando sua conta de armazenamento e contêiner de Blob para conectar sua fonte de dados de treinamento.
Reveja e crie o seu projeto.
Adicione seus documentos de exemplo para rotular, criar e testar seu modelo personalizado.

Experimente o Document Intelligence Studio

Para obter um passo a passo detalhado para criar seu primeiro modelo de extração personalizado, consulte Como criar um modelo de extração personalizado.

Resumo da extração do modelo personalizado

Esta tabela compara as áreas de extração de dados suportadas:

Modelo	Campos de formulário	Marcas de seleção	Campos estruturados (Tabelas)	Assinatura	Rotulagem de regiões	Campos sobrepostos
Modelo personalizado	✔	✔	✔	✔	✔	n/a
Neural personalizado	✔	✔	✔	n/a	*	✔ (2024-02-29-pré-visualização)

Símbolos da tabela:
✔ —Suportado
**n/a—Atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos de modelo, os dados sintéticos são gerados no momento do treinamento. Com modelos neurais, o texto de saída reconhecido na região é selecionado.

Gorjeta

Ao escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se ele atender às suas necessidades funcionais. Consulte neural personalizado para saber mais sobre modelos neurais personalizados.

Opções de desenvolvimento de modelos personalizados

A tabela a seguir descreve os recursos disponíveis com as ferramentas associadas e bibliotecas de cliente. Como prática recomendada, certifique-se de usar as ferramentas compatíveis listadas aqui.

Document type	API REST	SDK	Modelos de etiquetas e testes
Modelo personalizado v 4.0 v3.1 v3.0	Inteligência Documental 3.1	SDK de Inteligência Documental	Estúdio de Inteligência de Documentação
Neural personalizado v4.0 v3.1 v3.0	Inteligência Documental 3.1	SDK de Inteligência Documental	Estúdio de Inteligência de Documentação
Formulário personalizado v2.1	API de Inteligência Documental 2.1 GA	SDK de Inteligência Documental	Ferramenta de etiquetagem de amostra

Nota

Os modelos de modelo personalizados treinados com a API 3.0 terão algumas melhorias em relação à API 2.1 decorrentes de melhorias no mecanismo OCR. Os conjuntos de dados usados para treinar um modelo de modelo personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Os formatos de ficheiro suportados são JPEG/JPG, PNG, BMP, TIFF e PDF (texto incorporado ou digitalizado). Os PDFs incorporados com texto são a melhor forma de eliminar a possibilidade de erros durante a extração e localização de carateres.
Para arquivos PDF e TIFF, até 2.000 páginas podem ser processadas. Com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas.
O tamanho do arquivo deve ser inferior a 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem têm de ser entre 50 x 50 e 10 000 x 10 000 píxeis.
As dimensões do PDF são de até 17 x 17 polegadas, correspondendo ao tamanho de papel Legal ou A3, ou menor.
O tamanho total dos dados de treinamento é de 500 páginas ou menos.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
Gorjeta

Dados de preparação:
- Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagens. Os PDFs digitalizados são processados como imagens.
- Forneça apenas uma única instância do formulário por documento.
- Para formulários preenchidos, use exemplos que tenham todos os campos preenchidos.
- Utilize formulários com diferentes valores em cada campo.
- Se as imagens do formulário forem de qualidade inferior, use um conjunto de dados maior. Por exemplo, use de 10 a 15 imagens.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos personalizados para obter uma lista completa dos idiomas suportados.

Próximos passos

Tente processar seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Compartilhar via

Modelos personalizados de Document Intelligence

Tipos de modelo de documento personalizado

Modelos de extração personalizados

Modelo neural personalizado

Modelo de modelo personalizado

Requisitos de entrada

Dados de treinamento ideais

Modo de construção

Comparar recursos do modelo

Modelo de classificação personalizado

Ferramentas de modelo personalizadas

Ciclo de vida do modelo personalizado

Criar um modelo personalizado

Ferramenta de etiquetagem de amostra

Estúdio de Inteligência de Documentação

Resumo da extração do modelo personalizado

Opções de desenvolvimento de modelos personalizados

Idiomas e localidades suportados

Próximos passos

Comentários

Recursos adicionais