Modelos de documento fiscal dos EUA da Informação de Documentos

Importante

  • As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
  • A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
  • Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
  • Leste dos EUA
  • Oeste dos EUA 2
  • Oeste da Europa

Este conteúdo se aplica a:marca de seleçãov4.0 (versão prévia) | Versões anteriores:marca de seleção azulv3.1 (GA)

Este conteúdo se aplica a:marca de seleçãov3.1(disponibilidade geral) | Versão mais recente:marca de seleção roxav4.0 (versão prévia)

O modelo de contrato do Document Intelligence usa recursos poderosos de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo seleto de documentos fiscais. Os documentos fiscais podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como nome do cliente, endereço para cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. O modelo atualmente dá suporte a determinados formatos de documentos fiscais em inglês.

Tipos de documento com suporte:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 e variações (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 e variações (Agenda 1, Agenda 2, Agenda 3, Agenda 8812, Agenda A, Agenda B, Agenda C, Agenda D, Agenda E, Agendamento EIC, Agenda F, Agenda H, Agenda J, Agenda R, Agenda ES e Agenda Sênior)

Processamento automatizado de documentos fiscais

O processamento automatizado de documentos fiscais é o processo de extração de campos-chave de documentos fiscais. Historicamente, os documentos fiscais eram processados manualmente. Esse modelo permite a fácil automação de cenários fiscais.

Opções de desenvolvimento

A Informação de Documentos v4.0 (2023-10-31-preview) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelos de formulário fiscal dos EUA Estúdio de Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelos de formulário fiscal dos EUA Estúdio de Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do Modelo
Modelos de formulário fiscal dos EUA Estúdio de Informação de Documentos
API REST
SDK do C#
SDK do Python
SDK do Java
SDK do JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Requisitos de entrada

  • Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.

  • Formatos de arquivo com suporte:

    Modelar PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Ler
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Documento geral
    Predefinida
    Extração personalizada
    Classificação personalizada ✔ (2024-02-29-preview)
  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de camada gratuita, somente as duas primeiras páginas são processadas).

  • O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a um texto de cerca de 8 pontos a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB com no máximo 10.000 páginas.

Experimente a extração de dados de documentos fiscais

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das notas fiscais. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

Captura de tela da localização das chaves e do ponto de extremidade no portal do Azure.

Estúdio de Informação de Documentos

  1. Na página inicial do Estúdio de Informação de Documentos, selecione modelos de documentos fiscais compatíveis.

  2. Você pode analisar um documento fiscais de amostra ou carregar seus próprios arquivos.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

    Captura de tela dos botões de opções Executar análise e Analisar no Document Intelligence Studio.

Idiomas e localidades com suporte

Confira nossa página Suporte a Idiomas – modelos predefinidos, para obter uma lista completa dos idiomas com suporte.

Extração do campo W-2

A seguir estão os campos extraídos de uma declaração de imposto W-2 na resposta de saída JSON.

Nome Tipo Descrição Saída de exemplo dependentes
W-2FormVariant String Variante do formulário IR W-2. Este campo pode ter um dos valores a seguir: W-2, W-2AS, W-2CM, W-2GU, ou W-2VI W-2
TaxYear Número Ano fiscal do formulário 2021
W2Copy String Versão da cópia fiscal W-2 junto com as instruções impressas relacionadas a essa cópia Cópia A — Para Administração do Seguro Social
Employee objeto Objeto que contém número do seguro social, nome e endereço
ControlNumber string Número de controle W-2. Campo d do IRS W-2 0AB12 D345 7890
Employer Objeto Objeto que contém número de identificação, nome e endereço do empregador
WagesTipsAndOtherCompensation Número Salários, taxas e outros valores de remuneração em USD. Campo 1 do IRS W-2 1234567.89
FederalIncomeTaxWithheld Número Valor retido do imposto de renda federal em USD. Campo 2 do IRS W-2 1234567.89
SocialSecurityWages Número Valor dos salários do seguro social em USD. Campo 3 do IRS W-2 1234567.89
SocialSecurityTaxWithheld Número Valor retido do imposto do seguro social em USD. Campo 4 do IRS W-2 1234567.89
MedicareWagesAndTips Número Os salários e as taxas do Medicare são expressos em USD. Campo 5 do IRS W-2 1234567.89
MedicareTaxWithheld Número Valor retido do imposto do Medicare em USD. Campo 6 do IRS W-2 1234567.89
SocialSecurityTips Número Valor das taxas do seguro social em USD. Campo 7 do IRS W-2 1234567.89
AllocatedTips Número Taxas alocadas em USD. Campo 8 do IRS W-2 1234567.89
VerificationCode Número Código de verificação W-2. Campo 9 do IRS W-2 1234567.89
DependentCareBenefits Número Valor dos benefícios de assistência a dependentes em USD. Campo 10 do IRS W-2 1234567.89
NonQualifiedPlans Número Valor de planos não qualificados em USD. Campo 11 do IRS W-2 1234567.89
IsStatutoryEmployee String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso true
IsRetirementPlan String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso true
IsThirdPartySickPay String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso true
Other String Conteúdo do campo 14 do IRS W-2 SICK LV WAGES SBJT TO $511/DAY LIMIT 1356
StateTaxInfos Array Informações relacionadas a impostos estaduais. conteúdo do campo 15 ao 17 do IRS W-2
LocaleTaxInfos Array Informações relacionadas a impostos locais. Conteúdo do campo 18 ao 20 do IRS W-2

Extração do campo 1098

A seguir estão os campos extraídos de uma declaração de imposto 1098 na resposta de saída JSON. Os formulários 1098-T e 1098-E também têm suporte.

Nome Tipo Descrição Saída de exemplo
TaxYear Número Ano fiscal do formulário 2021
Devedor Objeto Um objeto que contém o TIN, o nome, o endereço e o AccountNumber do devedor
Credor Objeto Um objeto que contém o TIN, nome, endereço e telefone do credor
MortgageInterest Número Valor dos juros hipotecários recebidos do(s) pagador(es)/devedor(s) (caixa 1) 1.234.567,89
OutstandingMortgagePrincipal Número Entidade de segurança hipotecária pendente (caixa 2) 1.234.567,89
MortgageOriginationDate Data Data de origem da hipoteca (caixa 3) 01/01/2022
OverpaidInterestRefund Número Valor do reembolso de juros pagos em excesso (caixa 4) 1.234.567,89
MortgageInsurancePremium Número Valor do prêmio do seguro hipotecário (caixa 5) 1.234.567,89
PointsPaid Número Pontos pagos na compra da residência principal (Caixa 6) 1.234.567,89
IsPropertyAddressSameAsBorrower String O endereço da propriedade que garante a hipoteca é o mesmo que o endereço postal do pagador/devedor (caixa 7) true
PropertyAddress String Endereço ou descrição da propriedade que garante a hipoteca (caixa 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Número Número de propriedades hipotecadas (caixa 9) 1
Outro String Informação adicional a reportar ao pagador (caixa 10)
RealEstateTax Número Imposto sobre imóveis (caixa 1) 1.234.567,89
AdditionalAssessment String Foram adicionadas avaliações feitas na propriedade (caixa 10) 1.234.567,89
MortgageAcquisitionDate date Data da aquisição da hipoteca (caixa 11) 01/01/2022

Extração do campo 1099-NEC

A seguir estão os campos extraídos de uma declaração de imposto 1099-nec na resposta de saída JSON. As outras variações de 1099 também têm suporte.

Nome Tipo Descrição Saída de exemplo
TaxYear String Ano Fiscal extraído do Formulário 1099-NEC. 2021
Payer Objeto Um objeto que contém o TIN, Nome, Endereço e PhoneNumber do pagador
Recipient Objeto Um objeto que contém o TIN, o nome, o endereço e o AccountNumber do destinatário
Box1 number Caixa 1 extraída do Formulário 1099-NEC. 123456
Box2 boolean Caixa 2 extraída do Formulário 1099-NEC. true
Box4 number Caixa 4 extraída do Formulário 1099-NEC. 123456
StateTaxesWithheld matriz Impostos Estaduais Retidos Extraídos do Formulário 1099-NEC (caixas 5, 6 e 7)

Formulário de imposto de extração do campo 1040

A seguir estão os campos extraídos de uma declaração de imposto 1040 na resposta de saída JSON. As outras variações de 1040 também têm suporte.

Nome Tipo Descrição Saída de exemplo
TaxPayer Objeto Um objeto que contém as informações do contribuinte, como SSN, sobrenome e endereço
Spouse Objeto Um objeto que contém as informações do cônjuge, como SSN, sobrenome, nome e iniciais do nome
Dependents matriz Uma matriz que contém uma lista de dependentes, incluindo informações como nome, SSN e tipo de crédito
ThirdPartyDesignee objeto Um objeto que contém informações sobre o terceiro designado
SignatureDetails objeto Um objeto que contém informações sobre o signatário, como números de telefone e emails
PaidPreparer objeto Um objeto que contém informações sobre o preparador.
FillingStatus String O valor pode ser um de noSelection, solteiro, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse ou multiSelection. single
FilingStatusDetails objeto Um objeto que contém informações sobre o status de arquivamento.
NameOfSpouseOrQualifyingPerson String Nome do cônjuge ou pessoa qualificada extraída do Formulário 1040. John Smith
PresidentialElectionCampaign String O valor pode ser um de noSelection, contribuinte, cônjuge ou multiSelection. Contribuinte
PresidentialElectionCampaignDetails objeto Um objeto que contém detalhes sobre a campanha eleitoral presidencial.
DigitalAssets String O valor pode ser um de noSelection, sim, não ou multiSelection. sim
DigitalAssetsDetails objeto Um objeto que contém detalhes sobre os ativos digitais.
ClaimStatus String O valor pode ser de noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien ou multiSelection. taxpayerAsDependent
ClaimStatusDetails objeto Um objeto que contém detalhes sobre o status da declaração.
TaxpayerAgeBlindness String O valor pode ser um de noSelection, above64blind ou multiSelection. above64
TaxPayerAgeBlindnessDetails objeto Um objeto que contém detalhes sobre a cegueira etária do contribuinte.
SpouseAgeBlindness String O valor pode ser um de noSelection, above64blind ou multiSelection. above64
TaxPayerAgeBlindnessDetails objeto Um objeto que contém detalhes sobre a cegueira etária do cônjuge.
MoreThanFourDependents boolean Mais de quatro dependentes extraídos do Formulário 1040. true
Box1a número A caixa 1a extraída do 1040. 123456
Com base na estrutura JSON fornecida e convertendo-a no mesmo formato de tabela solicitado, o resultado é o seguinte:
Box1b número A caixa 1b extraída do 1040. 123456
Box1c número A caixa 1c extraída do 1040. 123456
Box1d número A caixa 1d extraída do 1040. 123456
Box1e número A caixa 1e extraída do 1040. 123456
Box1f número A caixa 1f extraída do 1040. 123456
Box1g número A caixa 1g extraída do 1040. 123456
Box1h número A caixa 1h extraída do 1040. 123456
Box1i número A caixa 1i extraída do 1040. 123456
Box1z número A caixa 1z extraída do 1040. 123456
Box2a número A caixa 2a extraída do 1040. 123456
Box2b número A caixa 2b extraída do 1040. 123456
Box3a número A caixa 3a extraída do 1040. 123456
Box3b número A caixa 3b extraída do 1040. 123456
Box4a número A caixa 4a extraída do 1040. 123456
Box4b número A caixa 4b extraída do 1040. 123456
Box5a número A caixa 5a extraída do 1040. 123456
Box5b número A caixa 5b extraída do 1040. 123456
Box6a número A caixa 6a extraída do 1040. 123456
Box6b número A caixa 6b extraída do 1040. 123456
Box6cCheckbox boolean A caixa de seleção 6c extraída do 1040. true
Box7Checkbox boolean Caixa de seleção 7 extraída do 1040. true
Box7 número A caixa 7 extraída do 1040. 123456
Box8 número A caixa 8 extraída do 1040. 123456
Box9 número A caixa 9 extraída do 1040. 123456
Box10 número A caixa 10 extraída do 1040. 123456
Box11 número A caixa 11 extraída do 1040. 123456
Box12 número A caixa 12 extraída do 1040. 123456
Box13 número A caixa 13 extraída do 1040. 123456
Box14 número A caixa 14 extraída do 1040. 123456
Box15 número A caixa 15 extraída do 1040. 123456
Box16FromForm string O valor pode ser um de noSelection, 8814, 4972, outro ou multiSelection. 8814
Box16FromFormDetails objeto Um objeto que contém detalhes sobre a Caixa 16
Box16OtherFormNumber string Caixa 16 outro número de formulário extraído do 1040. 8888
Box16 número A caixa 16 extraída do 1040. 123456
Box17 número A caixa 17 extraída do 1040. 123456
Box18 número A caixa 18 extraída do 1040. 123456
Box19 número A caixa 19 extraída do 1040. 123456
Box20 número A caixa 20 extraída do 1040. 123456
Box21 número A caixa 21 extraída do 1040. 123456
Box22 número A caixa 22 extraída do 1040. 123456
Box23 número A caixa 23 extraída do 1040. 123456
Box24 número A caixa 24 extraída do 1040. 123456
Box25a número A caixa 25a extraída do 1040. 123456
Box25b número A caixa 25b extraída do 1040. 123456
Box25c número A caixa 25c extraída do 1040. 123456
Box25d número A caixa 25d extraída do 1040. 123456
Box26 número A caixa 26 extraída do 1040. 123456
Box27 número A caixa 27 extraída do 1040. 123456
Box28 número A caixa 28 extraída do 1040. 123456
Box29 número A caixa 29 extraída do 1040. 123456
Box31 número A caixa 31 extraída do 1040. 123456
Box32 número A caixa 32 extraída do 1040. 123456
Box33 número A caixa 33 extraída do 1040. 123456
Box34 número A caixa 34 extraída do 1040. 123456
Box35Checkbox boolean Caixa de seleção 35 extraída do 1040. true
Box35a número A caixa 35a extraída do 1040. 123456
Box35b número A caixa 35b extraída do 1040. 123456
Box35c string O valor pode ser um de noSelection, verificação, economias ou multiSelection. verificando
Box35cDetails objeto Um objeto que contém detalhes sobre a Caixa 35c
Box35d número A caixa 35d extraída do 1040. 123456
Box36 número A caixa 36 extraída do 1040. 123456
Box37 número A caixa 37 extraída do 1040. 123456
Box38 número A caixa 38 extraída do 1040. 123456
HasAssignedThirdPartyDesignee string O valor pode ser um de noSelection, sim, não ou multiSelection. sim
HasAssignedThirdPartyDesigneeDetails objeto Objeto que contém informações sobre o que foi selecionado para o terceiros designado atribuído

Os pares de chave-valor dos documentos fiscais e os itens de linha extraídos estão na seção documentResults da saída JSON.

Próximas etapas