Modelos personalizados de Document Intelligence

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
  • A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
  • E.U.A. Leste
  • Oeste dos EUA2
  • Europa Ocidental

Este conteúdo aplica-se a:marca de verificaçãov4.0 (pré-visualização) | Versões anteriores:Marca de verificação azulv3.1 (GA)Marca de verificação azulv3.0 (GA)Marca de verificação azulv2.1 (GA)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (visualização) | Versões anteriores:Marca de verificação azulv3.0Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov3.0 (GA) | Últimas versões:marca de verificação roxav4.0 (preview)marca de verificação roxav3.1 | Versão anterior:Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov2.1 | Última versão:Marca de verificação azulv4.0 (pré-visualização)

O Document Intelligence usa tecnologia avançada de aprendizado de máquina para identificar documentos, detetar e extrair informações de formulários e documentos e retornar os dados extraídos em uma saída JSON estruturada. Com o Document Intelligence, você pode usar modelos de análise de documentos, pré-construídos/pré-treinados ou seus modelos personalizados autônomos treinados.

Os modelos personalizados agora incluem modelos de classificação personalizados para cenários em que você precisa identificar o tipo de documento antes de invocar o modelo de extração. Os modelos de classificadores estão disponíveis a partir da 2023-07-31 (GA) API. Um modelo de classificação pode ser emparelhado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos da sua empresa para criar uma solução de processamento de documentos. Modelos de extração personalizados autônomos podem ser combinados para criar modelos compostos.

Tipos de modelo de documento personalizado

Os modelos de documentos personalizados podem ser de dois tipos, modelo ou formulário personalizado e modelos de documentos neurais ou personalizados personalizados. O processo de rotulagem e treinamento para ambos os modelos é idêntico, mas os modelos diferem da seguinte forma:

Modelos de extração personalizados

Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que você deseja extrair e treine o modelo no conjunto de dados rotulado. Você só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.

Modelo neural personalizado

Importante

A partir da versão 4.0 — API 2024-02-29-preview, os modelos neurais personalizados agora suportam campos sobrepostos e confiança em nível de tabela, linha e célula.

O modelo neural personalizado (documento personalizado) usa modelos de aprendizagem profunda e modelo base treinado em uma grande coleção de documentos. Esse modelo é então ajustado ou adaptado aos seus dados quando você treina o modelo com um conjunto de dados rotulado. Modelos neurais personalizados suportam documentos estruturados, semiestruturados e não estruturados para extrair campos. Atualmente, os modelos neurais personalizados suportam documentos em inglês. Ao escolher entre os dois tipos de modelo, comece com um modelo neural para determinar se ele atende às suas necessidades funcionais. Consulte modelos neurais para saber mais sobre modelos de documentos personalizados.

Modelo de modelo personalizado

O modelo personalizado ou modelo de formulário personalizado depende de um modelo visual consistente para extrair os dados rotulados. As variações na estrutura visual dos documentos afetam a precisão do modelo. Formulários estruturados, como questionários ou aplicativos, são exemplos de modelos visuais consistentes.

Seu conjunto de treinamento consiste em documentos estruturados onde a formatação e o layout são estáticos e constantes de uma instância de documento para outra. Os modelos de modelo personalizados suportam pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelo e pode ser treinado em documentos em qualquer um dos idiomas suportados. Para obter mais informações, consultemodelos de modelo personalizados.

Se a linguagem de seus documentos e cenários de extração oferecer suporte a modelos neurais personalizados, recomendamos que você use modelos neurais personalizados em vez de modelos de modelo para maior precisão.

Gorjeta

Para confirmar se seus documentos de treinamento apresentam um modelo visual consistente, remova todos os dados inseridos pelo usuário de cada formulário no conjunto. Se os formulários em branco forem idênticos na aparência, eles representam um modelo visual consistente.

Para obter mais informações, consulteInterpretar e melhorar a precisão e a confiança para modelos personalizados.

Requisitos de entrada

  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem: jpeg/
    jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Lida
    Esquema ✔ (2024-02-29-preview, 2023-10-31-preview, e posterior)
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada

    ✱ Os ficheiros do Microsoft Office não são atualmente suportados para outros modelos ou versões.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a um texto de cerca 8de -ponto a 150 pontos por polegada.

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.

  • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

Modo de construção

A operação de modelo personalizado de compilação adiciona suporte para o modelo e modelos personalizados neurais . As versões anteriores da API REST e das bibliotecas de cliente suportavam apenas um único modo de compilação que agora é conhecido como o modo de modelo .

  • Os modelos de modelo só aceitam documentos que tenham a mesma estrutura básica de página — uma aparência visual uniforme — ou o mesmo posicionamento relativo de elementos dentro do documento.

  • Os modelos neurais suportam documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas variam em aparência entre as empresas. Atualmente, os modelos neurais suportam apenas texto em inglês.

Esta tabela fornece links para as referências SDK da linguagem de programação do modo de compilação e exemplos de código no GitHub:

Linguagem de programação Referência do SDK Exemplo de código
C#/.NET Estrutura DocumentBuildMode Sample_BuildCustomModelAsync.cs
Java DocumentBuildMode Classe BuildModel.java
JavaScript Tipo DocumentBuildMode buildModel.js
Python DocumentBuildMode Enum sample_build_model.py

Comparar recursos do modelo

A tabela a seguir compara o modelo personalizado e os recursos neurais personalizados:

Caraterística Modelo personalizado (formulário) Neural personalizado (documento)
Estrutura dos documentos Modelo, formulário e estrutura Estruturado, semi-estruturado e não estruturado
Tempo de preparação 1 a 5 minutos 20 minutos a 1 hora
Extração de dados Pares chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas Pares chave-valor, marcas de seleção e tabelas
Campos sobrepostos Não suportado Suportado
Variações de documentos Requer um modelo por cada variação Usa um único modelo para todas as variações
Suporte de idiomas Suporte a vários idiomas Inglês, com suporte de visualização para os idiomas espanhol, francês, alemão, italiano e holandês

Modelo de classificação personalizado

A classificação de documentos é um novo cenário suportado pela Document Intelligence com a 2023-07-31 API (v3.1 GA). A API do classificador de documentos suporta cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos suportados pelo seu aplicativo. O arquivo de entrada para o modelo de classificação pode conter vários documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, consulteModelos de classificação personalizados.

Nota

A partir da versão da API, a classificação de documentos agora oferece suporte a 2024-02-29-preview tipos de documentos do Office para classificação. Esta versão da API também introduz treinamento incremental para o modelo de classificação.

Ferramentas de modelo personalizadas

O Document Intelligence v3.1 e modelos posteriores suportam as seguintes ferramentas, aplicativos e bibliotecas, programas e bibliotecas:

Caraterística Recursos Model ID
Modelo personalizado • Document Intelligence Studio
API REST
C# SDK
Python SDK
ID do modelo personalizado

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Nota

Tipos de modelo personalizados , modelos neurais e personalizados estão disponíveis com as APIs do Document Intelligence versão v3.1 e v3.0.

Caraterística Recursos
Modelo personalizado • Ferramenta
de etiquetagem de Inteligência Documental• API REST
SDK
da biblioteca do cliente• Contêiner Docker de Inteligência Documental

Criar um modelo personalizado

Extraia dados de seus documentos específicos ou exclusivos usando modelos personalizados. Você precisa dos seguintes recursos:

  • Uma subscrição do Azure. Você pode criar um gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

    Captura de ecrã que mostra as chaves e a localização do ponto de extremidade no portal do Azure.

Ferramenta de etiquetagem de amostra

Gorjeta

  • Para uma experiência melhorada e uma qualidade de modelo avançada, experimente o Document Intelligence v3.0 Studio.
  • O v3.0 Studio suporta qualquer modelo treinado com dados rotulados v2.1.
  • Você pode consultar o guia de migração de API para obter informações detalhadas sobre a migração da v2.1 para a v3.0.
  • Consulte nossos inícios rápidos da API REST ou C#, Java, JavaScript ou Python SDK para começar a usar a versão v3.0.
  • A ferramenta Document Intelligence Sample Labeling é uma ferramenta de código aberto que permite testar os recursos mais recentes de Document Intelligence e OCR (Optical Character Recognition).

  • Experimente o início rápido da ferramenta Etiquetagem de Amostra para começar a criar e usar um modelo personalizado.

Estúdio de Inteligência de Documentação

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0.

  1. Na página inicial do Document Intelligence Studio , selecione Modelos de extração personalizados.

  2. Em Meus Projetos, selecione Criar um projeto.

  3. Preencha os campos de detalhes do projeto.

  4. Configure o recurso de serviço adicionando sua conta de armazenamento e contêiner de Blob para conectar sua fonte de dados de treinamento.

  5. Reveja e crie o seu projeto.

  6. Adicione seus documentos de exemplo para rotular, criar e testar seu modelo personalizado.

Para obter um passo a passo detalhado para criar seu primeiro modelo de extração personalizado, consulteComo criar um modelo de extração personalizado.

Resumo da extração do modelo personalizado

Esta tabela compara as áreas de extração de dados suportadas:

Modelo Campos de formulário Marcas de seleção Campos estruturados (Tabelas) Assinatura Rotulagem de regiões Campos sobrepostos
Modelo personalizado n/a
Neural personalizado n/a * ✔ (2024-02-29-pré-visualização)

Símbolos da tabela:
✔ —Suportado
**n/a—Atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos de modelo, os dados sintéticos são gerados no momento do treinamento. Com modelos neurais, o texto de saída reconhecido na região é selecionado.

Gorjeta

Ao escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se ele atender às suas necessidades funcionais. Consulte neural personalizado para saber mais sobre modelos neurais personalizados.

Opções de desenvolvimento de modelos personalizados

A tabela a seguir descreve os recursos disponíveis com as ferramentas associadas e bibliotecas de cliente. Como prática recomendada, certifique-se de usar as ferramentas compatíveis listadas aqui.

Document type API REST SDK Modelos de etiquetas e testes
Modelo personalizado v 4.0 v3.1 v3.0 Inteligência Documental 3.1 SDK de Inteligência Documental Estúdio de Inteligência de Documentação
Neural personalizado v4.0 v3.1 v3.0 Inteligência Documental 3.1 SDK de Inteligência Documental Estúdio de Inteligência de Documentação
Formulário personalizado v2.1 API de Inteligência Documental 2.1 GA SDK de Inteligência Documental Ferramenta de etiquetagem de amostra

Nota

Os modelos de modelo personalizados treinados com a API 3.0 terão algumas melhorias em relação à API 2.1 decorrentes de melhorias no mecanismo OCR. Os conjuntos de dados usados para treinar um modelo de modelo personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.

  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Os formatos de ficheiro suportados são JPEG/JPG, PNG, BMP, TIFF e PDF (texto incorporado ou digitalizado). Os PDFs incorporados com texto são a melhor forma de eliminar a possibilidade de erros durante a extração e localização de carateres.

  • Para arquivos PDF e TIFF, até 2.000 páginas podem ser processadas. Com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas.

  • O tamanho do arquivo deve ser inferior a 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem têm de ser entre 50 x 50 e 10 000 x 10 000 píxeis.

  • As dimensões do PDF são de até 17 x 17 polegadas, correspondendo ao tamanho de papel Legal ou A3, ou menor.

  • O tamanho total dos dados de treinamento é de 500 páginas ou menos.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

    Gorjeta

    Dados de preparação:

    • Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagens. Os PDFs digitalizados são processados como imagens.
    • Forneça apenas uma única instância do formulário por documento.
    • Para formulários preenchidos, use exemplos que tenham todos os campos preenchidos.
    • Utilize formulários com diferentes valores em cada campo.
    • Se as imagens do formulário forem de qualidade inferior, use um conjunto de dados maior. Por exemplo, use de 10 a 15 imagens.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos personalizados para obter uma lista completa dos idiomas suportados.

Próximos passos

  • Tente processar seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.

  • Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.