Extração de Campos de Documentos - modelo de IA generativo personalizado

Artigo
09/03/2024

Importante

As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
A versão prévia pública das bibliotecas de cliente do Informação de Documentos tem como padrão a versão da API REST 2024-07-31-preview e, no momento, está disponível apenas nas seguintes regiões do Azure.
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
- Centro-Norte dos EUA
O novo modelo generativo personalizado no AI Studio está disponível apenas na região Centro-Norte dos EUA:

O modelo de extração de campos de documentos (IA generativa personalizada) utiliza IA generativa para extrair campos especificados pelo usuário de documentos em uma ampla variedade de modelos visuais. O modelo de IA generativa personalizada combina o poder da compreensão de documentos com Modelos de Linguagem Grande (LLMs) e o rigor e o esquema das funcionalidades de extração personalizada para criar um modelo com alta precisão em minutos. Com esse tipo de modelo generativo, você pode começar com um único documento e passar pelo processo de adição de esquema e criação de modelo com o mínimo de rotulagem. O modelo generativo personalizado permite que os desenvolvedores e as empresas automatizem facilmente os fluxos de trabalho de extração de dados com maior precisão e velocidade para qualquer tipo de documento. O modelo de IA generativo personalizado se destaca na extração de campos simples de documentos sem amostras rotuladas. No entanto, o fornecimento de algumas amostras rotuladas melhora a precisão da extração de campos complexos e campos definidos pelo usuário, como tabelas. Você pode usar a API REST ou as bibliotecas de clientes para enviar um documento para análise com uma criação de modelo e usar o processo generativo personalizado.

Benefícios do modelo de IA generativo personalizado

Rotulagem automática. Utilize grandes modelos de linguagem (LLM) e extraia campos especificados pelo usuário para vários tipos de documento e modelos visuais.
Generalização aprimorada. Extraia dados de dados não estruturados e modelos de documento variados com maior precisão.
Resultados aterrados. Localize os dados extraídos nos documentos. Modelos generativos personalizados fundamentam os resultados quando aplicável, garantindo que a resposta seja gerada a partir do conteúdo e habilitando fluxos de trabalho de revisão humana.
Pontuações de confiança. Use pontuações de confiança para cada campo extraído para filtrar dados extraídos de alta qualidade, maximizar o processamento direto de documentos e minimizar os custos de revisão humana.

Casos de uso comuns

Gerenciamento do ciclo de vida de contratos. Criar um modelo generativos e extraia os campos, cláusulas e obrigações de uma ampla gama de tipos de contrato.
Pedidos de empréstimo e hipoteca. A automação do processo de pedidos de empréstimos e hipotecas permite que bancos, credores e entidades governamentais processem rapidamente um pedido de empréstimo e hipoteca.
Serviços financeiros. Com o modelo personalizado de IA generativa, analise documentos complexos, como relatórios financeiros e relatórios de gerenciamento de ativos.
Gerenciamento de despesas. Os recibos e as faturas de vários varejistas e empresas precisam ser analisados para validar as despesas. O modelo personalizado de IA generativa pode extrair despesas em diferentes formatos e documentos com modelos variados.

Gerenciamento do conjunto de dados de treinamento

Com nossos outros modelos personalizados, você precisa manter o conjunto de dados, adicionar novas amostras e treinar o modelo para melhorar a precisão. Com o modelo personalizado de IA generativa, os documentos rotulados são transformados, criptografados e armazenados como parte do modelo. Esse processo garante que o modelo possa usar continuamente as amostras rotuladas para melhorar a qualidade da extração. Como acontece com outros modelos personalizados, os modelos são armazenados no armazenamento da Microsoft, e você pode excluí-los a qualquer momento.

O serviço Informação de Documentos gerencia seus conjuntos de dados, mas seus documentos são armazenados de forma criptografada e usados apenas para melhorar os resultados do seu modelo específico. Uma chave alterada pelo serviço pode ser usada para criptografar seus dados ou, opcionalmente, pode ser criptografada com uma chave gerenciada pelo cliente. A alteração no gerenciamento e no ciclo de vida do conjunto de dados só se aplica a modelos geradores personalizados.

Funcionalidades de modelo

O modelo generativo personalizado de extração de campo atualmente oferece suporte à tabela dinâmica com 2024-07-31-preview e os seguintes campos:

Campos de formulário	Marcas de seleção	Campos tabulares	Assinatura	Rotulagem de região	Campos sobrepostos
Com suporte	Compatível	Com suporte	Sem suporte	Sem suporte	Com suporte

Modo de criação

A operação build custom model suporta modelos personalizados modelo, neural e generativo, verModo de construção de modelo personalizado. Veja a seguir as diferenças entre os tipos de modelos:

Modelos de IA generativos personalizados podem processar documentos complexos com vários formatos, modelos variados e dados não estruturados.
Os modelos neurais personalizados suportam o processamento de documentos complexos e também suportam mais variações nas páginas de documentos estruturados e semiestruturados.
Modelos de modelo de documento personalizados dependem de modelos visuais consistentes, como questionários ou aplicativos, para extrair os dados rotulados.

Suporte a idiomas e localidades

A versão 2024-07-31-preview do modelo generativo personalizado de extração de campo dá suporte a localidade en-us. Para obter mais informações sobre o suporte a idiomas, consulte Suporte de idioma – modelos personalizados.

Suporte a regiões

A versão 2024-07-31-preview do modelo generativo personalizado de extração de campo só está disponível em North Central US.

Requisitos de entrada

Formatos de arquivo com suporte:

Modelar	PDF	Image,: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Ler	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Documento geral	✔	✔
Predefinida	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente 8 pontos de texto a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de 1 GB, com um máximo de 10.000 páginas. Na 07-31-2024-versão prévia e posterior, o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Práticas recomendadas

Dados representativos. Use documentos representativos destinados à distribuição de dados reais e treine um modelo generativo personalizado de alta qualidade. Por exemplo, se o documento de destino incluir campos tabulares parcialmente preenchidos, adicione documentos de treinamento que consistam em tabelas parcialmente preenchidas. Ou se o campo for uma data nomeada, os valores desse campo devem ser uma data, pois cadeias de caracteres aleatórias podem afetar o desempenho do modelo.
Nomeação do campo. Escolha um nome de campo preciso que represente os valores do campo. Por exemplo, para um valor de campo que contém a Data da Transação, considere nomear o campo TransactionDate em vez de Date1.
Descrição do campo. Forneça informações mais contextuais na descrição para ajudar a esclarecer o campo que precisa ser extraído. Os exemplos incluem a localização no documento, possíveis rótulos de campo aos quais ele pode ser associado e formas de diferenciação com outros termos que podem ser ambíguos.
Variação. Modelos generativos personalizados podem generalizar em diferentes modelos de documento do mesmo tipo de documento. Como melhor prática, crie um modelo único para todas as variações de um tipo de documento. Preferencialmente, inclua um modelo visual para cada tipo, especialmente para aqueles que envolvem formatação distinta ou elementos estruturais, para melhorar a precisão e a consistência do modelo na geração ou processamento de documentos.

Diretrizes do serviço

No momento, a versão prévia do modelo Generativo Personalizado não dá suporte à extração de tabelas fixas e assinaturas.
A inferência no mesmo documento pode produzir resultados ligeiramente diferentes entre chamadas e é uma limitação conhecida dos modelos GPT atuais.
As pontuações de confiança para cada campo podem variar. Recomendamos testar com seus dados representativos para estabelecer os limites de confiança para seu cenário.
O aterramento, especialmente para campos tabulares, é desafiador e pode não ser perfeito em alguns casos.
A latência para documentos grandes é alta e é uma limitação conhecida na versão prévia.
Modelos compostos não dão suporte à extração generativa personalizada.

Treinando um modelo

Modelos generativos personalizados estão disponíveis com a versão 2024-07-31-preview e modelos posteriores.

A build operation para treinar modelos dá suporte à propriedade buildMode. Para treinar um modelo generativo personalizado, defina buildMode como generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Próximas etapas

Saiba como criar modelos generativos personalizados
Saiba mais sobre modelos personalizados

Compartilhar via