Modelo de fatura de Document Intelligence

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
  • A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
  • E.U.A. Leste
  • Oeste dos EUA2
  • Europa Ocidental

Este conteúdo aplica-se a:marca de verificaçãov4.0 (pré-visualização) | Versões anteriores:Marca de verificação azulv3.1 (GA)Marca de verificação azulv3.0 (GA)Marca de verificação azulv2.1 (GA)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (visualização) | Versões anteriores:Marca de verificação azulv3.0Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov3.0 (GA) | Últimas versões:marca de verificação roxav4.0 (preview)marca de verificação roxav3.1 | Versão anterior:Marca de verificação azulv2.1

Este conteúdo aplica-se a:marca de verificaçãov2.1 | Última versão:Marca de verificação azulv4.0 (pré-visualização)

O modelo de fatura do Document Intelligence usa poderosos recursos de Reconhecimento Ótico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de faturas de vendas, contas de serviços públicos e ordens de compra. As faturas podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto da fatura; extrai informações importantes, como nome do cliente, endereço de cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo suporta faturas em 27 idiomas.

Tipos de documentos suportados:

  • Faturas
  • Contas de serviços públicos
  • Ordens de venda
  • Notas de encomenda

Processamento automatizado de faturas

O processamento automatizado de faturas é o processo de extração dos principais campos de contas a pagar dos documentos da conta de faturamento. Os dados extraídos incluem itens de linha de faturas integrados com seus fluxos de trabalho de contas a pagar (AP) para revisões e pagamentos. Historicamente, o processo de contas a pagar é realizado manualmente e, portanto, muito demorado. A extração precisa de dados-chave de faturas é normalmente a primeira e uma das etapas mais críticas no processo de automação de faturas.

Exemplo de fatura processada com o Document Intelligence Studio:

Captura de tela de uma fatura de exemplo analisada no Document Intelligence Studio.

Exemplo de fatura processada com a ferramenta Document Intelligence Sample Labeling:

Captura de ecrã de uma fatura de exemplo.

Opções de desenvolvimento

O Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelo de fatura • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
fatura pré-embutida

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:

Caraterística Recursos Model ID
Modelo de fatura • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
fatura pré-embutida

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelo de fatura • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
fatura pré-embutida

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos
Modelo de fatura • Ferramenta
de etiquetagem de Inteligência Documental• API REST
SDK
de biblioteca cliente• Contêiner Docker de Inteligência Documental

Requisitos de entrada

  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Lida
    Esquema ✔ (2024-02-29-pré-visualização, 2023-10-31-pré-visualização)
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada ✔ (2024-02-29-pré-visualização)
  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a texto de cerca 8de -ponto a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

  • Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.
  • PDF e TIFF suportados, até 2.000 páginas são processadas. Para assinantes de nível gratuito, apenas as duas primeiras páginas são processadas.
  • O tamanho do arquivo suportado deve ser inferior a 50 MB e dimensões de pelo menos 50 x 50 pixels e no máximo 10.000 x 10.000 pixels.

Extração de dados do modelo de fatura

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das faturas. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

  1. Na home page do Document Intelligence Studio, selecione Faturas.

  2. Você pode analisar a fatura de amostra ou fazer upload de seus próprios arquivos.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

    Captura de tela dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Ferramenta de etiquetagem de exemplo de inteligência de documentos

  1. Navegue até a Ferramenta de Exemplo de Inteligência de Documentos.

  2. Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-criado para obter dados .

    Captura de tela do processo de análise de resultados do modelo de layout.

  3. Selecione o Tipo de formulário a ser analisado no menu suspenso.

  4. Escolha um URL para o arquivo que você gostaria de analisar a partir das opções abaixo:

  5. No campo Origem, selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar.

    Captura de ecrã do menu pendente da localização de origem.

  6. No campo Ponto de extremidade do serviço de Inteligência Documental, cole o ponto de extremidade obtido com sua assinatura do Document Intelligence.

  7. No campo chave, cole a chave obtida do recurso Document Intelligence.

    Captura de tela mostrando o menu suspenso select-form-type.

  8. Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.

  9. Exibir os resultados - veja os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detetadas.

    Captura de tela do modelo de layout analisar a operação de resultados.

Nota

A ferramenta Exemplo de etiquetagem não suporta o formato de ficheiro BMP. Esta é uma limitação da ferramenta e não do Serviço de Inteligência Documental.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos pré-construídos para obter uma lista completa dos idiomas suportados.

Extração de campo

Nome Tipo Description Saída padronizada
CustomerName string Cliente faturado Microsoft Corp
ID do Cliente string ID de referência do cliente CID-12345
PurchaseOrder string Número de referência da ordem de compra PO-3333
InvoiceId string ID para esta fatura específica (geralmente Número da fatura) INV-100
DataDaFatura data Data de emissão da fatura mm-dd-aaaa
Data de Vencimento data data de vencimento do pagamento desta fatura mm-dd-aaaa
VendorName string Fornecedor que criou esta fatura CONTOSO LTD.
Endereço do fornecedor Endereço Endereço postal do fornecedor 123 456th St, Nova Iorque, NY 10001
VendorAddressRecipient string Nome associado ao VendorAddress Sede da Contoso
CustomerAddress Endereço Endereço para correspondência do Cliente 123 Other St, Redmond WA, 98052
CustomerAddressRecipient string Nome associado ao CustomerAddress Microsoft Corp
Endereço de Faturação Endereço Endereço de faturação explícito para o cliente 123 Bill St, Redmond WA, 98052
BillingAddressRecipient string Nome associado ao BillingAddress Serviços Microsoft
Endereço de envio Endereço Endereço de envio explícito para o cliente 123 Navio St, Redmond WA, 98052
ShippingAddressRecipient string Nome associado ao ShippingAddress Entrega da Microsoft
Subtotal moeda Campo Subtotal identificado nesta fatura $100,00
Desconto Total moeda O desconto total aplicado a uma fatura 5,00 $
TotalTax moeda Campo de imposto total identificado nesta fatura $10.00
FaturaTotal moeda Total de novos encargos associados a esta fatura $10.00
Montante devido moeda Valor total devido ao fornecedor $610
AnteriorSaldo não pago moeda Saldo explícito não pago anteriormente $500,00
Endereço de Remessa Endereço Endereço explícito de remessa ou pagamento para o cliente 123 Remit St Nova Iorque, NY, 10001
RemittanceAddressRecipient string Nome associado ao RemittanceAddress Cobrança da Contoso
Endereço do Serviço Endereço Endereço de serviço explícito ou endereço de propriedade para o cliente 123 Service St, Redmond WA, 98052
ServiceAddressRecipient string Nome associado ao ServiceAddress Serviços Microsoft
ServiceStartDate data Primeira data do período de serviço (por exemplo, um período de serviço da fatura de serviços públicos) mm-dd-aaaa
ServiceEndDate data Data de fim do período de serviço (por exemplo, um período de serviço da fatura de serviços públicos) mm-dd-aaaa
VendorTaxId string O número de contribuinte associado ao fornecedor 123456-7
CustomerTaxId string O número de contribuinte associado ao cliente 765432-1
PagamentoPrazo string As condições de pagamento da fatura Net90
KVKNumber string Um identificador único para as empresas registadas nos Países Baixos (apenas nos Países Baixos) 12345678
CurrencyCode string O código de moeda associado ao montante extraído
PagamentoDetalhes matriz Uma matriz que contém detalhes da Opção de Pagamento, como IBAN,SWIFT, BPayBillerCode(AU), BPayReference(AU)
Detalhes Fiscais matriz Uma matriz que contém detalhes fiscais, como valor e taxa
Detalhes Fiscais matriz AN que contém informações fiscais adicionadas, como CGST, IGSTe SGST. Atualmente, este item de linha está disponível apenas para as localidades Alemanha (de), Espanha (es), Portugal (pt) e Inglaterra Canadá (en-CA)

Matriz de itens de linha

A seguir estão os itens de linha extraídos de uma fatura na resposta de saída JSON (a saída a seguir usa esta fatura de exemplo:

Nome Tipo Description Valor (saída padronizada)
Montante moeda A quantidade do item de linha $60.00
Date data Data correspondente a cada item de linha. Muitas vezes é uma data em que o item de linha foi enviado 3/4/2021
Description string A descrição do texto para o item de linha da fatura Serviço de consultoria
Quantidade Número A quantidade para este item de linha da fatura 2
Código do Produto string Código do produto, número do produto ou SKU associado ao item de linha específico A123
Imposto moeda Imposto associado a cada item de linha. Os valores possíveis incluem o valor do imposto e o imposto S/N 6,00 €
Alíquota string Taxa de imposto associada a cada item de linha. 18%
Unit string A unidade do item de linha, por exemplo, kg, lb etc. Horas
UnitPrice Número O preço líquido ou bruto (dependendo da definição da fatura bruta) de uma unidade deste item $30.00

Os pares chave-valor da fatura e os itens de linha extraídos estão na documentResults seção da saída JSON.

Pares chave-valor

A fatura pré-construída 2022-06-30 e versões posteriores suportam o retorno opcional de pares chave-valor. Por padrão, o retorno de pares chave-valor está desabilitado. Os pares chave-valor são extensões específicas dentro da fatura que identificam um rótulo ou chave e sua resposta ou valor associado. Numa fatura, estes pares podem ser a etiqueta e o valor que o utilizador introduziu para esse campo ou número de telefone. O modelo de IA é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documentos, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em alguns casos. Os pares chave-valor são sempre extensões de texto contidas no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

Campos extraídos

O serviço de fatura extrai o texto, as tabelas e os 26 campos de fatura. A seguir estão os campos extraídos de uma fatura na resposta de saída JSON (a saída a seguir usa esta fatura de exemplo).

Nome Tipo Descrição Texto Valor (saída padronizada)
CustomerName string Cliente a ser faturado Microsoft Corp
ID do Cliente string ID de referência para o cliente CID-12345
PurchaseOrder string Um número de referência da ordem de compra PO-3333
InvoiceId string ID para esta fatura específica (geralmente "Número da fatura") INV-100
DataDaFatura data Data de emissão da fatura 11/15/2019 2019-11-15
Data de Vencimento data Data de vencimento do pagamento desta fatura 15/12/2019 2019-12-15
VendorName string Fornecedor que criou a fatura CONTOSO
Endereço do fornecedor string Endereço postal do fornecedor 123 456th St Nova Iorque, NY, 10001
VendorAddressRecipient string Nome associado ao VendorAddress Sede da Contoso
CustomerAddress string Endereço para correspondência do Cliente 123 Other Street, Redmond, Distrito de Colúmbia, 98052
CustomerAddressRecipient string Nome associado ao CustomerAddress Microsoft Corp
Endereço de Faturação string Endereço de faturação explícito para o cliente 123 Bill Street, Redmond, Distrito de Colúmbia, 98052
BillingAddressRecipient string Nome associado ao BillingAddress Serviços Microsoft
Endereço de envio string Endereço de envio explícito para o cliente 123 Ship Street, Redmond, Distrito de Colúmbia, 98052
ShippingAddressRecipient string Nome associado ao ShippingAddress Entrega da Microsoft
Subtotal Número Campo Subtotal identificado nesta fatura $100,00 100
TotalTax Número Campo de imposto total identificado nesta fatura $10.00 10
FaturaTotal Número Total de novos encargos associados a esta fatura $110,00 110
Montante devido Número Valor total devido ao fornecedor $610,00 610
Endereço do Serviço string Endereço de serviço explícito ou endereço de propriedade para o cliente 123 Service Street, Redmond, Distrito de Colúmbia, 98052
ServiceAddressRecipient string Nome associado ao ServiceAddress Serviços Microsoft
Endereço de Remessa string Endereço explícito de remessa ou pagamento para o cliente 123 Remit St Nova Iorque, NY, 10001
RemittanceAddressRecipient string Nome associado ao RemittanceAddress Cobrança da Contoso
ServiceStartDate data Primeira data do período de serviço (por exemplo, um período de serviço da fatura de serviços públicos) 10/14/2019 2019-10-14
ServiceEndDate data Data de fim do período de serviço (por exemplo, um período de serviço da fatura de serviços públicos) 11/14/2019 2019-11-14
AnteriorSaldo não pago Número Saldo explícito não pago anteriormente $500,00 500

A seguir estão os itens de linha extraídos de uma fatura na resposta de saída JSON e usa esta fatura de exemplo:

Nome Tipo Description Texto (item de linha #1) Valor (saída padronizada)
Items string Linha de texto de cadeia de caracteres completa do item de linha 04/03/2021 A123 Serviços de Consultoria 2 horas $30.00 10% $60.00
Montante Número A quantidade do item de linha $60.00 100
Description string A descrição do texto para o item de linha da fatura Serviço de consultoria Serviço de consultoria
Quantidade Número A quantidade para este item de linha da fatura 2 2
UnitPrice Número O preço líquido ou bruto (dependendo da definição da fatura bruta) de uma unidade deste item $30.00 30
Código do Produto string Código do produto, número do produto ou SKU associado ao item de linha específico A123
Unit string A unidade do item de linha, por exemplo, kg, lb etc. horas
Date data Data correspondente a cada item de linha. Muitas vezes é uma data em que o item de linha foi enviado 3/4/2021 2021-03-04
Imposto Número Imposto associado a cada item de linha. Os valores possíveis incluem valor do imposto, % do imposto e imposto S/N 10%

A seguir estão campos complexos extraídos de uma fatura na resposta de saída JSON:

Detalhes Fiscais

Os detalhes fiscais visam decompor os diferentes impostos aplicados ao total da fatura.

Nome Tipo Description Texto (item de linha #1) Valor (saída padronizada)
Items string Linha de texto de cadeia de caracteres completa do item de imposto V.A.T. 15% $60.00
Montante Número O valor do imposto do item de imposto 60.00 60
Tarifa string A taxa de imposto do item de imposto 15%

PagamentoDetalhes

Liste todas as opções de pagamento detetadas no campo.

Nome Tipo Description Texto (item de linha #1) Valor (saída padronizada)
IBAN string Número de conta bancária interna GB33BUKB20201555555555
SWIFT string Código SWIFT BUKBGB22
BPayBillerCode string Código B-Pay Biller Australiano 12345
BPayReference string Código de Referência B-Pay Australiano 98765432100

Saída JSON

A saída JSON tem três partes:

  • "readResults" contém todas as marcas de texto e seleção reconhecidas. O texto é organizado por página, depois por linha, depois por palavras individuais.
  • "pageResults" contém as tabelas e células extraídas com suas caixas delimitadoras, confiança e uma referência às linhas e palavras em readResults.
  • "documentResults" contém os valores específicos da fatura e os itens de linha que o modelo descobriu. É onde encontrar todos os campos da fatura, como ID da fatura, enviar para, faturar para, cliente, total, itens de linha e muito mais.

Guia de migração

  • Siga nosso guia de migração do Document Intelligence v3.1 para saber como usar a versão v3.0 em seus aplicativos e fluxos de trabalho.

Próximos passos

  • Tente processar seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.

  • Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.