Share via


Document Intelligence Modelos de documentos fiscais dos EUA

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
  • Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
  • A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
  • E.U.A. Leste
  • Oeste dos EUA2
  • Europa Ocidental

Este conteúdo aplica-se a:marca de verificaçãov4.0 (visualização) | Versões anteriores:Marca de verificação azulv3.1 (GA)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (visualização)

O modelo de contrato de Inteligência Documental usa poderosos recursos de Reconhecimento Ótico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo selecionado de documentos fiscais. Os documentos fiscais podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como nome do cliente, endereço de cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo suporta determinados formatos de documentos fiscais em inglês.

Tipos de documentos suportados:

  • W-2
  • 1098
  • Artigo 1098-E
  • 1098-T
  • 1099 e variações (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 e variações (Cronograma 1, Cronograma 2, Cronograma 3, Cronograma 8812, Cronograma A, Cronograma B, Cronograma C, Cronograma D, Cronograma E, Cronograma EICF, Cronograma H, Cronograma J, Cronograma R, Cronograma SE e Cronograma Sênior)

Processamento automatizado de documentos fiscais

O processamento automatizado de documentos fiscais é o processo de extração de campos-chave de documentos fiscais. Historicamente, os documentos fiscais eram processados manualmente. Este modelo permite a fácil automatização de cenários fiscais.

Opções de desenvolvimento

O Document Intelligence v4.0 (2023-10-31-preview) suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelos de formulário de imposto dos EUA • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
• pré-built-tax.us.pt W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3• prebuilt-tax.us.1040Schedule8812

• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:

Caraterística Recursos Model ID
Modelos de formulário de imposto dos EUA • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística Recursos Model ID
Modelos de formulário de imposto dos EUA • Document Intelligence Studio
API REST
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Requisitos de entrada

  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Lida
    Esquema ✔ (2024-02-29-pré-visualização, 2023-10-31-pré-visualização)
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada ✔ (2024-02-29-pré-visualização)
  • Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a texto de cerca 8de -ponto a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

Experimente a extração de dados de documentos fiscais

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das faturas. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure — você pode criar uma gratuitamente.

  • Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

Estúdio de Inteligência de Documentação

  1. Na página inicial do Document Intelligence Studio, selecione o modelo de documento fiscal suportado.

  2. Pode analisar um exemplo de documento fiscal ou carregar os seus próprios ficheiros.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

    Captura de tela dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos pré-construídos para obter uma lista completa dos idiomas suportados.

Extração de campo W-2

A seguir estão os campos extraídos de um formulário de imposto W-2 na resposta de saída JSON.

Nome Tipo Description Exemplo de saída dependentes
W-2FormVariant String Variante do formulário IR W-2. Este campo pode ter um dos seguintes valores: W-2, W-2AS, W-2CM, W-2GU, ou W-2VI W-2
TaxYear Número Formulário de ano fiscal 2021
W2Copy String Versão da cópia fiscal W-2 juntamente com instruções impressas relacionadas com esta cópia Cópia A—Para Administração da Segurança Social
Employee objeto Objeto que contém número de segurança social, nome e endereço
ControlNumber string Número de controlo W-2. IRS W-2 campo d 0AB12 D345 7890
Employer Object Objeto que contém número, nome e endereço de identificação do empregador
WagesTipsAndOtherCompensation Número Salários, gorjetas e outros valores de compensação em USD. IRS W-2 campo 1 1234567.89
FederalIncomeTaxWithheld Número Valor retido do imposto de renda federal em USD. IRS W-2 campo 2 1234567.89
SocialSecurityWages Número Valor dos salários da segurança social em USD. IRS W-2 campo 3 1234567.89
SocialSecurityTaxWithheld Número Valor retido do imposto de segurança social em USD. IRS W-2 campo 4 1234567.89
MedicareWagesAndTips Número Salários do Medicare e gorjetas em USD. IRS W-2 campo 5 1234567.89
MedicareTaxWithheld Número Valor retido do imposto Medicare em USD. IRS W-2 campo 6 1234567.89
SocialSecurityTips Número Valor das gorjetas da segurança social em USD. IRS W-2 campo 7 1234567.89
AllocatedTips Número Dicas alocadas em USD. IRS W-2 campo 8 1234567.89
VerificationCode Número Código de verificação W-2. IRS W-2 campo 9 1234567.89
DependentCareBenefits Número O valor dos benefícios de cuidados a dependentes é em USD. IRS W-2 campo 10 1234567.89
NonQualifiedPlans Número Valor dos planos não qualificados em USD. IRS W-2 campo 11 1234567.89
IsStatutoryEmployee String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso verdadeiro
IsRetirementPlan String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso verdadeiro
IsThirdPartySickPay String Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso verdadeiro
Other String Conteúdo do campo 14 do IRS W-2 SALÁRIO LV DOENTE SBJT PARA $511/DIA LIMITE 1356
StateTaxInfos Matriz Informações fiscais do Estado. conteúdo do campo 15 a 17 do IRS W-2
LocaleTaxInfos Matriz Informações locais relacionadas com impostos. Conteúdo do campo 18 a 20 do IRS W-2

Extração no campo 1098

A seguir estão os campos extraídos de um formulário de imposto 1098 na resposta de saída JSON. Os formulários 1098-T e 1098-E também são suportados.

Nome Tipo Description Exemplo de saída
Ano Fiscal Número Formulário de ano fiscal 2021
Mutuário Object Um objeto que contém o NIF, Nome, Endereço e Número de Conta do mutuário
Credor Object Um objeto que contém o NIF, o nome, o endereço e o telefone do credor
Juros Hipotecários Número Hipoteca Montante dos juros recebidos do(s) pagador(es)/mutuário(s) (caixa 1) 1,234,567.89
PendenteHipotecárioPrincipal Número Capital hipotecário pendente (caixa 2) 1,234,567.89
HipotecaOriginaçãoData Date Data de constituição da hipoteca (casa n.o 3) 2022-01-01
Reembolso de juros pagos em excesso Número Montante de reembolso dos juros pagos em excesso (casa n.o 4) 1,234,567.89
Seguro HipotecárioPremium Número Montante do prémio do seguro hipotecário (caixa 5) 1,234,567.89
PontosPagos Número Pontos pagos na compra da residência principal (casa 6) 1,234,567.89
IsPropertyAddressSameAsMutuário String O endereço do imóvel que garante a hipoteca é o mesmo que o endereço postal do ordenante/mutuário (casa n.o 7) verdadeiro
PropertyAddress String Endereço ou descrição do imóvel que garante a hipoteca (casa n.o 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Número Número de imóveis hipotecados (casa n.o 9) 1
Outro String Informações adicionais a comunicar ao ordenante (casa n.o 10)
Imposto Imobiliário Número Imposto predial (caixa 1) 1,234,567.89
Avaliação adicional String Avaliações adicionais feitas na propriedade (caixa 10) 1,234,567.89
HipotecaAquisiçãoData data Data de aquisição da hipoteca (caixa 11) 2022-01-01

Extração de campo 1099-NEC

A seguir estão os campos extraídos de um formulário de imposto 1099-nec na resposta de saída JSON. As outras variações de 1099 também são suportadas.

Nome Tipo Description Exemplo de saída
TaxYear String Ano fiscal extraído do formulário 1099-NEC. 2021
Payer Object Um objeto que contém o NIF, o nome, o endereço e o número de telefone do pagador
Recipient Object Um objeto que contém o NIF, Name, Address e AccountNumber do destinatário
Box1 Número Casa n.o 1 extraída do formulário 1099-NEC. 123456
Box2 boolean Caixa 2 extraída do formulário 1099-NEC. verdadeiro
Box4 Número Casa n.o 4 extraída do formulário 1099-NEC. 123456
StateTaxesWithheld matriz Impostos Estaduais Retidos na Fonte extraídos do Formulário 1099-NEC (caixas 5, 6 e 7)

Extração de campo 1040 formulário fiscal

A seguir estão os campos extraídos de um formulário de imposto 1040 na resposta de saída JSON. As outras variações de 1040 também são suportadas.

Nome Tipo Description Exemplo de saída
TaxPayer Object Um objeto que contém informações do contribuinte, como SSN, Sobrenome e Endereço
Spouse Object Um objeto que contém informações do cônjuge, como CPF, sobrenome, nome próprio e iniciais Nome
Dependents matriz Uma matriz que contém uma lista de dependentes, incluindo informações como Nome, SSN e Tipo de Crédito
ThirdPartyDesignee objeto Um objeto que contém informações sobre o terceiro designado
SignatureDetails objeto Um objeto que contém informações sobre o signatário, como números de telefone e e-mails
PaidPreparer objeto Um objeto que contém informações sobre o preparador.
FillingStatus String O valor pode ser um de noSelection, solteiro, casadoJuntos, casadosPreenchendo separadamente, chefe de família, qualificandoSobrevivendoCônjuge ou multiSeleção. solteiro
FilingStatusDetails objeto Um objeto que contém informações sobre o status do depósito.
NameOfSpouseOrQualifyingPerson String Nome do cônjuge ou pessoa qualificada extraído do formulário 1040. John Smith
PresidentialElectionCampaign String O valor pode ser um de noSelection, contribuinte, cônjuge ou multiSelection. Contribuinte
PresidentialElectionCampaignDetails objeto Um objeto que contém detalhes sobre a campanha eleitoral presidencial.
DigitalAssets String O valor pode ser um de noSelection, yes, no ou multiSelection. sim
DigitalAssetsDetails objeto Um objeto que contém detalhes sobre os ativos digitais.
ClaimStatus String O valor pode ser um de noSelection, contribuinteAsDependent, cônjugeAsDependente, cônjugeItemizesSeparadamenteOrDualStatusAlien ou multiSelection. contribuinteAsDependente
ClaimStatusDetails objeto Um objeto que contém detalhes sobre o status da declaração.
TaxpayerAgeBlindness String O valor pode ser um de noSelection, above64, blind ou multiSelection. acima64
TaxPayerAgeBlindnessDetails objeto Um objeto que contém detalhes sobre a cegueira etária do contribuinte.
SpouseAgeBlindness String O valor pode ser um de noSelection, above64, blind ou multiSelection. acima64
TaxPayerAgeBlindnessDetails objeto Um objeto que contém detalhes sobre a cegueira etária do cônjuge.
MoreThanFourDependents boolean Mais de quatro dependentes extraídos do formulário 1040. verdadeiro
Box1a Número Caixa 1a extraída de 1040. 123456
Com base na estrutura JSON fornecida e convertendo-a no mesmo formato de tabela solicitado, o resultado é o seguinte:
Box1b Número Caixa 1b extraída de 1040. 123456
Box1c Número Caixa 1c extraída de 1040. 123456
Box1d Número Caixa 1d extraída de 1040. 123456
Box1e Número Caixa 1e extraída de 1040. 123456
Box1f Número Caixa 1f extraída de 1040. 123456
Box1g Número Caixa 1g extraída de 1040. 123456
Box1h Número Caixa 1h extraída de 1040. 123456
Box1i Número Caixa 1i extraída de 1040. 123456
Box1z Número Caixa 1z extraída de 1040. 123456
Box2a Número Caixa 2a extraída de 1040. 123456
Box2b Número Caixa 2b extraída de 1040. 123456
Box3a Número Caixa 3a extraída de 1040. 123456
Box3b Número Caixa 3b extraída de 1040. 123456
Box4a Número Caixa 4a extraída de 1040. 123456
Box4b Número Caixa 4b extraída de 1040. 123456
Box5a Número Caixa 5a extraída de 1040. 123456
Box5b Número Caixa 5b extraída de 1040. 123456
Box6a Número Caixa 6a extraída de 1040. 123456
Box6b Número Caixa 6b extraída de 1040. 123456
Box6cCheckbox boolean Caixa 6c de seleção extraída de 1040. verdadeiro
Box7Checkbox boolean Caixa 7 Caixa de verificação extraída de 1040. verdadeiro
Box7 Número Caixa 7 extraída de 1040. 123456
Box8 Número Caixa 8 extraída de 1040. 123456
Box9 Número Caixa 9 extraída de 1040. 123456
Box10 Número Caixa 10 extraída de 1040. 123456
Box11 Número Caixa 11 extraída de 1040. 123456
Box12 Número Caixa 12 extraída de 1040. 123456
Box13 Número Caixa 13 extraída de 1040. 123456
Box14 Número Caixa 14 extraída de 1040. 123456
Box15 Número Caixa 15 extraída de 1040. 123456
Box16FromForm string O valor pode ser um de noSelection, 8814, 4972, outro ou multiSelection. 8814
Box16FromFormDetails objeto Objeto que contém detalhes sobre a Caixa 16
Box16OtherFormNumber string Casa n.o 16 Outro número de formulário extraído de 1040. 8888
Box16 Número Caixa 16 extraída de 1040. 123456
Box17 Número Caixa 17 extraída de 1040. 123456
Box18 Número Caixa 18 extraída de 1040. 123456
Box19 Número Caixa 19 extraída de 1040. 123456
Box20 Número Caixa 20 extraída de 1040. 123456
Box21 Número Caixa 21 extraída de 1040. 123456
Box22 Número Caixa 22 extraída de 1040. 123456
Box23 Número Caixa 23 extraída de 1040. 123456
Box24 Número Caixa 24 extraída de 1040. 123456
Box25a Número Caixa 25a extraída de 1040. 123456
Box25b Número Caixa 25b extraída de 1040. 123456
Box25c Número Caixa 25c extraída de 1040. 123456
Box25d Número Caixa 25d extraída de 1040. 123456
Box26 Número Caixa 26 extraída de 1040. 123456
Box27 Número Caixa 27 extraída de 1040. 123456
Box28 Número Caixa 28 extraída de 1040. 123456
Box29 Número Caixa 29 extraída de 1040. 123456
Box31 Número Caixa 31 extraída de 1040. 123456
Box32 Número Caixa 32 extraída de 1040. 123456
Box33 Número Caixa 33 extraída de 1040. 123456
Box34 Número Caixa 34 extraída de 1040. 123456
Box35Checkbox boolean Caixa 35 Caixa de verificação extraída de 1040. verdadeiro
Box35a Número Caixa 35a extraída de 1040. 123456
Box35b Número Caixa 35b extraída de 1040. 123456
Box35c string O valor pode ser um de noSelection, checking, savings ou multiSelection. verificação
Box35cDetails objeto Objeto que contém detalhes sobre Box 35c
Box35d Número Caixa 35d extraída de 1040. 123456
Box36 Número Caixa 36 extraída de 1040. 123456
Box37 Número Caixa 37 extraída de 1040. 123456
Box38 Número Caixa 38 extraída de 1040. 123456
HasAssignedThirdPartyDesignee string O valor pode ser um de noSelection, yes, no ou multiSelection. sim
HasAssignedThirdPartyDesigneeDetails objeto Objeto que contém informações sobre o que foi selecionado para o terceiro designado atribuído

As notas fiscais, os pares chave-valor e os itens de linha extraídos estão na documentResults seção da saída JSON.

Próximos passos