Construa um conjunto de dados de formação para um modelo personalizado

Quando utiliza o modelo personalizado Reconhecedor de Formulários, fornece os seus próprios dados de treino para a operação Train Custom Model, para que o modelo possa treinar para os seus formulários específicos da indústria. Siga este guia para aprender a recolher e preparar dados para treinar o modelo de forma eficaz.

Precisa de pelo menos cinco formas preenchidas do mesmo tipo.

Se quiser utilizar dados de treino etiquetados manualmente, deve começar com pelo menos cinco formas preenchidas do mesmo tipo. Ainda pode utilizar formulários não rotulados para além do conjunto de dados necessário.

Requisitos de entrada de modelo personalizado

Em primeiro lugar, certifique-se de que o seu conjunto de dados de treino segue os requisitos de entrada para Reconhecedor de Formulários.

  • Para obter melhores resultados, forneça uma foto clara ou uma varredura de alta qualidade por documento.

  • Formatos de ficheiros suportados:

    Modelação PDF Imagem:
    JPEG/JPG, PNG, BMP e TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) e HTML
    Ler versão API REST
    2022/06/30-preview
    Layout
    Documento Geral
    Pré-construído
    Personalizado

    ✱ os ficheiros do Microsoft Office não são suportados para outros modelos ou versões.

  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma subscrição de nível livre, apenas as duas primeiras páginas são processadas).

  • O tamanho do ficheiro para análise de documentos deve ser inferior a 500 MB para o nível pago (S0) e 4 MB para nível gratuito (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • As dimensões PDF são até 17 x 17 polegadas, correspondentes ao tamanho do papel Legal ou A3, ou menores.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a extrair é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada (DPI).

  • Para o treino de modelo personalizado, o número máximo de páginas para dados de treino é de 500 para o modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para o treino de modelo personalizado, o tamanho total dos dados de treino é de 50 MB para modelo de modelo e 1G-MB para o modelo neural.

Dicas de dados de formação

Siga estas dicas adicionais para otimizar ainda mais o seu conjunto de dados para o treino.

  • Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
  • Para formulários preenchidos, use exemplos que tenham todos os seus campos preenchidos.
  • Utilize formulários com diferentes valores em cada campo.
  • Se as imagens do seu formulário forem de menor qualidade, utilize um conjunto de dados maior (10-15 imagens, por exemplo).

Faça upload dos seus dados de treino

Quando tiver reunido o conjunto de documentos de formulário que vai usar para o treino, tem de o enviar para um recipiente de armazenamento de bolhas Azure. Se não souber como criar uma conta de armazenamento Azure com um recipiente, siga o quickstart de armazenamento Azure para portal do Azure. Utilize o nível de desempenho padrão.

Se quiser utilizar dados etiquetados manualmente, também terá de carregar os ficheiros .labels.json e .ocr.json que correspondem aos seus documentos de treino. Pode utilizar a ferramenta de rotulagem de amostra (ou a sua própria UI) para gerar estes ficheiros.

Organize os seus dados em sub-dobradeiras (opcional)

Por predefinição, a API do Modelo Personalizado do Comboio apenas utilizará documentos de formulário que estejam localizados na raiz do seu recipiente de armazenamento. No entanto, pode treinar com dados em sub-dobradeiras se o especificar na chamada API. Normalmente, o corpo da chamada Train Custom Model tem o seguinte formato, onde <SAS URL> está o URL de assinatura de acesso partilhado do seu recipiente:

{
  "source":"<SAS URL>"
}

Se adicionar o seguinte conteúdo ao organismo de pedido, a API irá treinar com documentos localizados em sub-dobradeiras. O "prefix" campo é opcional e limitará o conjunto de dados de treino a ficheiros cujos caminhos começam com a cadeia dada. Assim, um valor de "Test", por exemplo, fará com que a API olhe apenas para os ficheiros ou pastas que começam com a palavra "Teste".

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Passos seguintes

Agora que aprendeu a construir um conjunto de dados de treino, siga um quickstart para treinar um modelo de Reconhecedor de Formulários personalizado e comece a usá-lo nos seus formulários.

Ver também