Criar e treinar um modelo de extração personalizado
Este conteúdo se aplica a: v4.0 (versão prévia) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1
Importante
O comportamento de treinamento de modelo de geração personalizado é diferente do modelo personalizado e do treinamento de modelo neural. O documento a seguir aborda o treinamento somente para modelos personalizados e modelos neurais. Para obter diretrizes sobre o generativo personalizado, consulte modelo de geração personalizado
Os modelos personalizados da Informação de Documentos exigem um conjunto de documentos de treinamento para serem iniciados. Se você tiver pelo menos cinco documentos, poderá começar a treinar um modelo personalizado. Você pode treinar um modelo do modelo personalizado (formulário personalizado) ou um modelo neural personalizado (documento personalizado) ou modelo do modelo personalizado (formulário personalizado). Este documento o orienta pelo processo de treinamento dos modelos personalizados.
Requisitos de entrada do modelo personalizado
Primeiro, verifique se o conjunto de dados de treinamento segue os requisitos de entrada da Informação de Documentos.
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para 2024-07-31-preview e versões posteriores, o tamanho total dos dados de treinamento é de2
GB com um máximo de 10.000 páginas.
Dicas de dados de treinamento
Siga estas dicas para otimizar seu conjunto de dados para treinamento:
- Use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
- Use exemplos que tenham todos os campos concluídos para formulários com campos de entrada.
- Use os formulários com diferentes valores em cada campo.
- Use um conjunto de dados maior (10 a 15 imagens) se as imagens do formulário forem de qualidade inferior.
Carregar os dados de treinamento
Depois de reunir um conjunto de formulários ou documentos para treinamento, você precisará carregá-lo em um contêiner do armazenamento de blobs do Azure. Se você não sabe como criar uma conta de armazenamento do Azure com um contêiner, siga o guia de início rápido do Armazenamento do Microsoft Azure no portal do Azure. Use o tipo de preço gratuito (F0) para experimentar o serviço e atualizar mais tarde para um nível pago para produção.
Vídeo: treinar seu modelo personalizado
- Depois de coletar e carregar o conjunto de dados de treinamento, você estará pronto para treinar seu modelo personalizado. No vídeo a seguir, vamos criar um projeto e explorar alguns dos conceitos básicos para rotular e treinar um modelo com êxito.
Crie um projeto no Estúdio de Informação de Documentos
O Estúdio de Informação de Documentos fornece e orquestra todas as chamadas à API exigidas para completar seu conjunto de dados e treinar seu modelo.
Comece navegando até o Estúdio de Informação de Documentos. Na primeira vez que você usar o Estúdio, precisará inicializar sua assinatura, grupo de recursos e recurso. Em seguida, siga os pré-requisitos para projetos personalizados para configurar o Studio para acessar seu conjunto de dados de treinamento.
No Estúdio, selecione o bloco Modelo de extração personalizado e selecione o botão Criar um projeto.
Na caixa de diálogo
create project
, forneça um nome para seu projeto, opcionalmente uma descrição e selecione continuar.Na próxima etapa do fluxo de trabalho, escolha ou crie um recurso de Informação de Documentos antes de selecionar continuar.
Importante
Os modelos neurais personalizados só estão disponíveis em algumas regiões. Se você planeja treinar um modelo neural, selecione ou crie um recurso em uma dessas regiões com suporte.
Em seguida, selecione a conta de armazenamento que você usou para carregar seu conjunto de dados de treinamento de modelo personalizado. O Caminho da pasta deverá estar vazio se os documentos de treinamento estiverem na raiz do contêiner. Se os documentos estiverem em uma subpasta, insira o caminho relativo da raiz do contêiner no campo Caminho da pasta. Depois que sua conta de armazenamento estiver configurada, selecione continuar.
Por fim, revise as configurações do projeto e selecione Criar projeto para criar um novo projeto. Agora você deve estar na janela de rotulagem e ver os arquivos no seu conjunto de dados listado.
Rotular seus dados.
No seu projeto, sua primeira tarefa é rotular seu conjunto de dados com os campos que você deseja extrair.
Você verá os arquivos carregados no armazenamento à esquerda da tela, com o primeiro arquivo pronto para ser rotulado.
Comece a rotular seu conjunto de dados e criar seu primeiro campo selecionando o botão de mais (➕) no canto superior direito da tela.
Insira um nome para o grupo.
Atribua um valor ao campo escolhendo uma palavra ou palavras no documento. Selecione o campo na lista suspensa ou na lista de campos na barra de navegação à direita. Você verá o valor rotulado abaixo do nome do campo na lista de campos.
Repita o processo para todos os campos que deseja rotular para o seu conjunto de dados.
Rotule os documentos remanescentes no seu conjunto de dados selecionando cada documento e selecionando o texto a ser rotulado.
Agora você tem todos os documentos dentro do seu conjunto de dados rotulado. Os arquivos .labels.json e .ocr.jsoncorrespondem a cada documento no seu conjunto de dados de treinamento e a um novo arquivo fields.json. Esse conjunto de dados é enviado para treinar o modelo.
Treinar seu modelo
Com o seu conjunto de dados rotulado, agora você está pronto para treinar seu modelo. Selecione o botão Treinar no canto superior direito.
Na caixa de diálogo Treinar modelo, forneça uma ID de modelo exclusiva e, opcionalmente, uma descrição. A ID do modelo aceita um tipo de dados de cadeia de caracteres.
Para o modo de Build, selecione o tipo de modelo que deseja treinar. Saiba mais sobre os recursos e tipos de modelo.
Selecione Treinar para iniciar o processo de treinamento.
Os modelos treinam em alguns minutos. Os modelos neurais podem levar até 30 minutos para treinar.
Navegue até o menu Modelos para exibir o status da operação de treinamento.
Testar o modelo
Depois que o treinamento do modelo for concluído, você poderá testar seu modelo selecionando o modelo na página da lista de modelos.
Selecione o modelo e o botão Testar.
Selecione o botão
+ Add
para selecionar um arquivo para testar o modelo.Com um arquivo selecionado, escolha o botão Analisar para testar o modelo.
Os resultados do modelo são exibidos na janela principal e os campos extraídos são listados na barra de navegação à direita.
Valide seu modelo avaliando os resultados de cada campo.
A barra de navegação direita também tem o código de exemplo para invocar seu modelo e os resultados JSON da API.
Parabéns, você aprendeu a treinar um modelo personalizado no Estúdio de Informação de Documentos! Seu modelo está pronto para uso com a API REST ou o SDK para analisar documentos.
Aplica-se a: v2.1. Outras versões: v3.0
Ao usar o modelo personalizado da Informação de Documentos, você fornece seus dados de treinamento para a operação Treinar Modelo Personalizado, para que o modelo possa treinar seus formulários específicos do setor. Siga este guia para aprender a coletar e preparar dados para treinar o modelo com eficiência.
Você precisa de pelo menos cinco formulários preenchidos do mesmo tipo.
Para usar dados de treinamento etiquetados manualmente, você precisa começar com pelo menos cinco formulários preenchidos do mesmo tipo. Você ainda pode usar formulários sem etiqueta além do conjunto de dados necessário.
Requisitos de entrada do modelo personalizado
Primeiro, verifique se o conjunto de dados de treinamento segue os requisitos de entrada da Informação de Documentos.
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para 2024-07-31-preview e versões posteriores, o tamanho total dos dados de treinamento é de2
GB com um máximo de 10.000 páginas.
Dicas de dados de treinamento
Siga estas dicas para otimizar seu conjunto de dados para treinamento.
- Use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
- Use exemplos que tenham todos os campos preenchidos para formulários concluídos.
- Use os formulários com diferentes valores em cada campo.
- Use um conjunto de dados maior (10 a 15 imagens) para formulários concluídos.
Carregar os dados de treinamento
Depois de reunir o conjunto de documentos para treinamento, você precisará carregá-lo em um contêiner do armazenamento de blobs do Azure. Se você não sabe como criar uma conta de armazenamento do Azure com um contêiner, siga o guia de início rápido do Armazenamento do Microsoft Azure no portal do Azure. Use o nível de desempenho padrão.
Se você quiser usar dados rotulados manualmente, você tem que carregar os arquivos .labels.json e .ocr.json que correspondam aos seus documentos de treinamento. Você pode usar a ferramenta de Rotulagem de Amostra (ou uma interface do usuário própria) para gerar os arquivos.
Organizar os dados em subpastas (opcional)
Por padrão, a API Treinar Modelo Personalizado só usará documentos localizados na raiz do contêiner de armazenamento. No entanto, você poderá treinar usando dados em subpastas se especificá-los na chamada à API. Normalmente, o corpo da chamada a Treinar Modelo Personalizado tem o seguinte formato, em que <SAS URL>
é a URL de Assinatura de Acesso Compartilhado do contêiner:
{
"source":"<SAS URL>"
}
Se você adicionar o conteúdo a seguir ao corpo da solicitação, a API será treinada com documentos localizados em subpastas. O campo "prefix"
é opcional e limita o conjunto de dados de treinamento a arquivos cujos caminhos começam com a cadeia de caracteres especificada. Portanto, um valor de "Test"
, por exemplo, faz com que a API examine apenas os arquivos ou pastas que começam com a palavra Teste.
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
Próximas etapas
Agora que você aprendeu a criar um conjunto de dados de treinamento, siga um guia de início rápido para treinar um modelo personalizado de Informação de Documentos e comece a usá-lo em seus formulários.