Modelo de recibo do Reconhecimento de Formulários do Azure

Este artigo se aplica a:marca de seleção do Reconhecimento de Formulários v3.0Reconhecimento de Formulários v3.0. Versão anterior:Reconhecimento de Formulários v2.1

Este artigo se aplica a:marca de seleção do Reconhecimento de Formulários v2.1Reconhecimento de Formulários v2.1. Versão posterior:Reconhecimento de Formulários v3.0

O modelo de recibo do Reconhecimento de Formulários combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes dos recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes, como o nome do comerciante, o número de telefone do comerciante, a data da transação, o imposto e o total da transação e retorna os dados JSON estruturados.

Extração de dados de recibo

A digitalização de recibo é o processo de conversão de recibos verificados em formulário digital para processamento downstream. A extração de dados de recibo habilitado para OCR do Reconhecimento de Formulários do Azure ajuda a automatizar a conversão e poupar tempo e esforço. A saída da extração de dados de recibo é usada para automação de contas a pagar e a receber, análise de dados de vendas e outros cenários empresariais.

Recibo de exemplo processado com o Estúdio de Reconhecimento de Formulários:

Captura de tela do exemplo de recibo processado no Estúdio do Reconhecimento de Formulários.

Opções de desenvolvimento

As ferramentas a seguir são compatíveis com o Reconhecimento de Formulários v3.0:

Recurso Recursos ID do Modelo
Modelo de recibo prebuilt-receipt

As ferramentas a seguir são compatíveis com o Reconhecimento de Formulários v2.1:

Recurso Recursos
Modelo de recibo

Requisitos de entrada

  • Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.

  • Formatos de arquivo com suporte:

    Modelar PDF Imagem:
    JPEG/JPG, PNG, BMP e TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) e HTML
    Ler Versão da API REST
    2022/06/30-preview
    Layout
    Documento geral
    Predefinida
    Personalizado

    ✱ Atualmente, não há suporte para arquivos do Microsoft Office para outros modelos ou versões.

  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de camada gratuita, somente as duas primeiras páginas são processadas).

  • O tamanho do arquivo para análise de documentos deve ter menos de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • As dimensões PDF têm até 17 x 17 polegadas, correspondentes ao tamanho de papel Legal ou A3 ou menor.

  • Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para treinamento de modelo personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.

  • Formatos de arquivo compatíveis: JPEG, PNG, PDF e TIFF
  • Em PDF e TIFF, até 2000 páginas são processadas. Para assinantes de camada gratuita, somente as duas primeiras páginas são processadas.
  • O tamanho do arquivo precisa ser menor que 50 MB e ter as dimensões mínima de 50 x 50 pixels e máxima de 10.000 x 10.000 pixels.

Experimentar a extração de dados de recibo

Veja como os dados, incluindo a hora e a data das transações, as informações de comerciante e os valores totais, são extraídos dos recibos. Serão necessários os recursos a seguir:

Captura de tela: chaves e local do ponto de extremidade no portal do Azure.

Estúdio do Reconhecimento de Formulários

Observação

O estúdio do Reconhecimento de Formulários está disponível com a API (v3.0).

  1. Na home page do Estúdio do Reconhecimento de Formulários, selecione Recibos

  2. Você pode analisar o recibo de exemplo ou selecionar o botão + Adicionar para carregar seu exemplo.

  3. Selecione o botão Analisar:

    Captura de tela: menu analisar recibo.

Ferramenta de rotulagem de exemplo do Reconhecimento de Formulários

  1. Navegue para a Ferramenta de Exemplos do Reconhecimento de Formulários.

  2. Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.

    Captura de tela do processo de análise de resultados do modelo de layout.

  3. Selecione o Tipo de Formulário que deseja analisar no menu suspenso.

  4. Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:

  5. No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.

    Captura de tela do menu suspenso do local de origem.

  6. No campo Ponto de extremidade do serviço Reconhecimento de Formulários, cole o ponto de extremidade obtido com a assinatura do Reconhecimento de Formulários.

  7. No campo chave, cole a chave obtida do recurso Reconhecimento de Formulários.

    Captura de tela do menu suspenso de tipo seleção de tipo de formulário.

  8. Selecione Executar análise. A ferramenta de etiquetagem de exemplo do Reconhecimento de Formulários chamará a API predefinida do Analisar Layout e analisará o documento.

  9. Exiba os resultados. Consulte os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detectadas.

    Captura de tela da operação de análise de resultados do modelo de layout.

Observação

A ferramenta de Rotulagem de Exemplo não é compatível com o formato de arquivo BMP. Essa é uma limitação da ferramenta e não do Serviço de Reconhecimento de Formulários.

Idiomas e localidades com suporte v3.0

Observação

Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.

O modelo de recibo dá suporte a todos os recibos em inglês e às seguintes localidades:

Linguagem Código de localidade
Inglês (Austrália) en-au
Inglês (Canadá) en-ca
Inglês (Reino Unido) en-gb
Inglês (Índia) en-in
Inglês (Estados Unidos) en-us
Francês "fr"
Espanhol es

Idiomas e localidades com suporte v2.1

Observação

Não é necessário especificar uma localidade. Esse é um parâmetro opcional. A tecnologia de aprendizagem profunda do Reconhecimento de Formulários detectará automaticamente o idioma do texto em sua imagem.

Modelar Idioma — código de localidade Padrão
Receipt
  • Inglês (Estados Unidos)—en-US
  • Inglês (Austrália)—en-AU
  • Inglês (Canadá)—en-CA
  • Inglês (Reino Unido)—en-GB
  • Inglês (Índia)—en-IN
Autodetectado

Extração de campo

Nome Type Descrição Saída padronizada
ReceiptType String Tipo de recibo de vendas Itemizado
MerchantName String Nome do comerciante que está emitindo o recibo
MerchantPhoneNumber phoneNumber Número de telefone listado do comerciante +1 xxx xxx xxxx
MerchantAddress String Endereço listado do comerciante
Data da transação Data Data em que o recibo foi emitido aaaa-mm-dd
TransactionTime Hora Hora em que o recibo foi emitido hh-mm-ss (24 horas)
Total Número (USD) Total de transações completas do recibo Float com duas casas decimais
Subtotal Número (USD) Subtotal do recibo, geralmente antes da aplicação de impostos Float com duas casas decimais
Imposto Número (USD) Imposto total no recibo (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30-preview. Float com duas casas decimais
Dica Número (USD) Gorjeta incluída pelo comprador Float com duas casas decimais
Itens Matriz de objetos Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído
Nome String Descrição do item. Renomeado para "Description" na versão 2022-06-30.
Quantidade Número Quantidade de cada item Float com duas casas decimais
Preço Número Preço individual de cada unidade de item Float com duas casas decimais
TotalPrice Número Preço total do item de linha Float com duas casas decimais

O Reconhecimento de Formulários v3.0 apresenta vários novos recursos e funcionalidades. O modelo de Recibo dá suporte ao processamento de recibos de hotel de página única.

Extração de campo de recibo de hotel

Nome Type Descrição Saída padronizada
ArrivalDate Data Data de chegada aaaa-mm-dd
Moeda Moeda Conversor de Moedas unidade de valores de recebimento. Por exemplo, USD, EUR ou misto se vários valores forem encontrados
DepartureDate Data Data de partida aaaa-mm-dd
Itens Array
Items.*.Category String Categoria de item, por exemplo, quarto, Imposto etc.
Itens. *. Date Data Data do item aaaa-mm-dd
Itens. *. descrição String Descrição do item
Items.*.TotalPrice Número Preço total do item Float com duas casas decimais
MerchantAddress String Endereço listado do comerciante
MerchantAliases Array
MerchantAliases.* String Nome alternativo do comerciante
MerchantName String Nome do comerciante que está emitindo o recibo
MerchantPhoneNumber phoneNumber Número de telefone listado do comerciante +1 xxx xxx xxxx
ReceiptType String Tipo de recibo, por exemplo, Hotel, Detalhado
Total Número Total de transações completas do recibo Float com duas casas decimais

Idiomas e localidades com suporte de recibo do Hotel

Modelar Idioma — código de localidade Padrão
Recibo (Hotel)
  • Inglês (Estados Unidos)—en-US
Inglês (Estados Unidos)—en-US

Guia de migração e API REST v3.0

Próximas etapas