Modelos de documento fiscal dos EUA da Informação de Documentos
Importante
- As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
- A versão prévia pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-02-29-preview.
- Atualmente, a versão prévia pública 2024-02-29-preview só está disponível nas seguintes regiões do Azure:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
Este conteúdo se aplica a: v4.0 (versão prévia) | Versões anteriores: v3.1 (GA)
Este conteúdo se aplica a: v3.1 (GA) | Versão mais recente: v4.0 (versão prévia)
O modelo de contrato do Document Intelligence usa recursos poderosos de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo seleto de documentos fiscais. Os documentos fiscais podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como nome do cliente, endereço para cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. O modelo atualmente dá suporte a determinados formatos de documentos fiscais em inglês.
Tipos de documento com suporte:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 e variações (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
- 1040 e variações (Agenda 1, Agenda 2, Agenda 3, Agenda 8812, Agenda A, Agenda B, Agenda C, Agenda D, Agenda E, Agendamento
EIC
, Agenda F, Agenda H, Agenda J, Agenda R, Agenda ES e Agenda Sênior)
Processamento automatizado de documentos fiscais
O processamento automatizado de documentos fiscais é o processo de extração de campos-chave de documentos fiscais. Historicamente, os documentos fiscais eram processados manualmente. Esse modelo permite a fácil automação de cenários fiscais.
Opções de desenvolvimento
A Informação de Documentos v4.0 (2023-10-31-preview) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelos de formulário fiscal dos EUA | • Estúdio de Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelos de formulário fiscal dos EUA | • Estúdio de Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelos de formulário fiscal dos EUA | • Estúdio de Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Requisitos de entrada
Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Formatos de arquivo com suporte:
Modelar PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-02-29-preview) Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de camada gratuita, somente as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a um texto de cerca de
8
pontos a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1GB
com no máximo 10.000 páginas.
Experimente a extração de dados de documentos fiscais
Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das notas fiscais. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Estúdio de Informação de Documentos
Na página inicial do Estúdio de Informação de Documentos, selecione modelos de documentos fiscais compatíveis.
Você pode analisar um documento fiscais de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Idiomas e localidades com suporte
Confira nossa página Suporte a Idiomas – modelos predefinidos, para obter uma lista completa dos idiomas com suporte.
Extração do campo W-2
A seguir estão os campos extraídos de uma declaração de imposto W-2 na resposta de saída JSON.
Nome | Tipo | Descrição | Saída de exemplo | dependentes |
---|---|---|---|---|
W-2FormVariant |
String | Variante do formulário IR W-2. Este campo pode ter um dos valores a seguir: W-2 , W-2AS , W-2CM , W-2GU , ou W-2VI |
W-2 | |
TaxYear |
Número | Ano fiscal do formulário | 2021 | |
W2Copy |
String | Versão da cópia fiscal W-2 junto com as instruções impressas relacionadas a essa cópia | Cópia A — Para Administração do Seguro Social | |
Employee |
objeto | Objeto que contém número do seguro social, nome e endereço | ||
ControlNumber |
string | Número de controle W-2. Campo d do IRS W-2 | 0AB12 D345 7890 | |
Employer |
Objeto | Objeto que contém número de identificação, nome e endereço do empregador | ||
WagesTipsAndOtherCompensation |
Número | Salários, taxas e outros valores de remuneração em USD. Campo 1 do IRS W-2 | 1234567.89 | |
FederalIncomeTaxWithheld |
Número | Valor retido do imposto de renda federal em USD. Campo 2 do IRS W-2 | 1234567.89 | |
SocialSecurityWages |
Número | Valor dos salários do seguro social em USD. Campo 3 do IRS W-2 | 1234567.89 | |
SocialSecurityTaxWithheld |
Número | Valor retido do imposto do seguro social em USD. Campo 4 do IRS W-2 | 1234567.89 | |
MedicareWagesAndTips |
Número | Os salários e as taxas do Medicare são expressos em USD. Campo 5 do IRS W-2 | 1234567.89 | |
MedicareTaxWithheld |
Número | Valor retido do imposto do Medicare em USD. Campo 6 do IRS W-2 | 1234567.89 | |
SocialSecurityTips |
Número | Valor das taxas do seguro social em USD. Campo 7 do IRS W-2 | 1234567.89 | |
AllocatedTips |
Número | Taxas alocadas em USD. Campo 8 do IRS W-2 | 1234567.89 | |
VerificationCode |
Número | Código de verificação W-2. Campo 9 do IRS W-2 | 1234567.89 | |
DependentCareBenefits |
Número | Valor dos benefícios de assistência a dependentes em USD. Campo 10 do IRS W-2 | 1234567.89 | |
NonQualifiedPlans |
Número | Valor de planos não qualificados em USD. Campo 11 do IRS W-2 | 1234567.89 | |
IsStatutoryEmployee |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | true | |
IsRetirementPlan |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | true | |
IsThirdPartySickPay |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | true | |
Other |
String | Conteúdo do campo 14 do IRS W-2 | SICK LV WAGES SBJT TO $511/DAY LIMIT 1356 | |
StateTaxInfos |
Array | Informações relacionadas a impostos estaduais. conteúdo do campo 15 ao 17 do IRS W-2 | ||
LocaleTaxInfos |
Array | Informações relacionadas a impostos locais. Conteúdo do campo 18 ao 20 do IRS W-2 |
Extração do campo 1098
A seguir estão os campos extraídos de uma declaração de imposto 1098 na resposta de saída JSON. Os formulários 1098-T e 1098-E também têm suporte.
Nome | Tipo | Descrição | Saída de exemplo |
---|---|---|---|
TaxYear | Número | Ano fiscal do formulário | 2021 |
Devedor | Objeto | Um objeto que contém o TIN, o nome, o endereço e o AccountNumber do devedor | |
Credor | Objeto | Um objeto que contém o TIN, nome, endereço e telefone do credor | |
MortgageInterest | Número | Valor dos juros hipotecários recebidos do(s) pagador(es)/devedor(s) (caixa 1) | 1.234.567,89 |
OutstandingMortgagePrincipal | Número | Entidade de segurança hipotecária pendente (caixa 2) | 1.234.567,89 |
MortgageOriginationDate | Data | Data de origem da hipoteca (caixa 3) | 01/01/2022 |
OverpaidInterestRefund | Número | Valor do reembolso de juros pagos em excesso (caixa 4) | 1.234.567,89 |
MortgageInsurancePremium | Número | Valor do prêmio do seguro hipotecário (caixa 5) | 1.234.567,89 |
PointsPaid | Número | Pontos pagos na compra da residência principal (Caixa 6) | 1.234.567,89 |
IsPropertyAddressSameAsBorrower | String | O endereço da propriedade que garante a hipoteca é o mesmo que o endereço postal do pagador/devedor (caixa 7) | true |
PropertyAddress | String | Endereço ou descrição da propriedade que garante a hipoteca (caixa 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | Número | Número de propriedades hipotecadas (caixa 9) | 1 |
Outro | String | Informação adicional a reportar ao pagador (caixa 10) | |
RealEstateTax | Número | Imposto sobre imóveis (caixa 1) | 1.234.567,89 |
AdditionalAssessment | String | Foram adicionadas avaliações feitas na propriedade (caixa 10) | 1.234.567,89 |
MortgageAcquisitionDate | date | Data da aquisição da hipoteca (caixa 11) | 01/01/2022 |
Extração do campo 1099-NEC
A seguir estão os campos extraídos de uma declaração de imposto 1099-nec na resposta de saída JSON. As outras variações de 1099 também têm suporte.
Nome | Tipo | Descrição | Saída de exemplo |
---|---|---|---|
TaxYear |
String | Ano Fiscal extraído do Formulário 1099-NEC. | 2021 |
Payer |
Objeto | Um objeto que contém o TIN, Nome, Endereço e PhoneNumber do pagador | |
Recipient |
Objeto | Um objeto que contém o TIN, o nome, o endereço e o AccountNumber do destinatário | |
Box1 |
number | Caixa 1 extraída do Formulário 1099-NEC. | 123456 |
Box2 |
boolean | Caixa 2 extraída do Formulário 1099-NEC. | true |
Box4 |
number | Caixa 4 extraída do Formulário 1099-NEC. | 123456 |
StateTaxesWithheld |
matriz | Impostos Estaduais Retidos Extraídos do Formulário 1099-NEC (caixas 5, 6 e 7) |
Formulário de imposto de extração do campo 1040
A seguir estão os campos extraídos de uma declaração de imposto 1040 na resposta de saída JSON. As outras variações de 1040 também têm suporte.
Nome | Tipo | Descrição | Saída de exemplo |
---|---|---|---|
TaxPayer |
Objeto | Um objeto que contém as informações do contribuinte, como SSN, sobrenome e endereço | |
Spouse |
Objeto | Um objeto que contém as informações do cônjuge, como SSN, sobrenome, nome e iniciais do nome | |
Dependents |
matriz | Uma matriz que contém uma lista de dependentes, incluindo informações como nome, SSN e tipo de crédito | |
ThirdPartyDesignee |
objeto | Um objeto que contém informações sobre o terceiro designado | |
SignatureDetails |
objeto | Um objeto que contém informações sobre o signatário, como números de telefone e emails | |
PaidPreparer |
objeto | Um objeto que contém informações sobre o preparador. | |
FillingStatus |
String | O valor pode ser um de noSelection, solteiro, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse ou multiSelection. | single |
FilingStatusDetails |
objeto | Um objeto que contém informações sobre o status de arquivamento. | |
NameOfSpouseOrQualifyingPerson |
String | Nome do cônjuge ou pessoa qualificada extraída do Formulário 1040. | John Smith |
PresidentialElectionCampaign |
String | O valor pode ser um de noSelection, contribuinte, cônjuge ou multiSelection. | Contribuinte |
PresidentialElectionCampaignDetails |
objeto | Um objeto que contém detalhes sobre a campanha eleitoral presidencial. | |
DigitalAssets |
String | O valor pode ser um de noSelection, sim, não ou multiSelection. | sim |
DigitalAssetsDetails |
objeto | Um objeto que contém detalhes sobre os ativos digitais. | |
ClaimStatus |
String | O valor pode ser de noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien ou multiSelection. | taxpayerAsDependent |
ClaimStatusDetails |
objeto | Um objeto que contém detalhes sobre o status da declaração. | |
TaxpayerAgeBlindness |
String | O valor pode ser um de noSelection, above64 blind ou multiSelection. |
above64 |
TaxPayerAgeBlindnessDetails |
objeto | Um objeto que contém detalhes sobre a cegueira etária do contribuinte. | |
SpouseAgeBlindness |
String | O valor pode ser um de noSelection, above64 blind ou multiSelection. |
above64 |
TaxPayerAgeBlindnessDetails |
objeto | Um objeto que contém detalhes sobre a cegueira etária do cônjuge. | |
MoreThanFourDependents |
boolean | Mais de quatro dependentes extraídos do Formulário 1040. | true |
Box1a |
número | A caixa 1a extraída do 1040. |
123456 |
Com base na estrutura JSON fornecida e convertendo-a no mesmo formato de tabela solicitado, o resultado é o seguinte: | |||
Box1b |
número | A caixa 1b extraída do 1040. |
123456 |
Box1c |
número | A caixa 1c extraída do 1040. |
123456 |
Box1d |
número | A caixa 1d extraída do 1040. |
123456 |
Box1e |
número | A caixa 1e extraída do 1040. |
123456 |
Box1f |
número | A caixa 1f extraída do 1040. |
123456 |
Box1g |
número | A caixa 1g extraída do 1040. |
123456 |
Box1h |
número | A caixa 1h extraída do 1040. |
123456 |
Box1i |
número | A caixa 1i extraída do 1040. |
123456 |
Box1z |
número | A caixa 1z extraída do 1040. |
123456 |
Box2a |
número | A caixa 2a extraída do 1040. |
123456 |
Box2b |
número | A caixa 2b extraída do 1040. |
123456 |
Box3a |
número | A caixa 3a extraída do 1040. |
123456 |
Box3b |
número | A caixa 3b extraída do 1040. |
123456 |
Box4a |
número | A caixa 4a extraída do 1040. |
123456 |
Box4b |
número | A caixa 4b extraída do 1040. |
123456 |
Box5a |
número | A caixa 5a extraída do 1040. |
123456 |
Box5b |
número | A caixa 5b extraída do 1040. |
123456 |
Box6a |
número | A caixa 6a extraída do 1040. |
123456 |
Box6b |
número | A caixa 6b extraída do 1040. |
123456 |
Box6cCheckbox |
boolean | A caixa de seleção 6c extraída do 1040. |
true |
Box7Checkbox |
boolean | Caixa de seleção 7 extraída do 1040. | true |
Box7 |
número | A caixa 7 extraída do 1040. | 123456 |
Box8 |
número | A caixa 8 extraída do 1040. | 123456 |
Box9 |
número | A caixa 9 extraída do 1040. | 123456 |
Box10 |
número | A caixa 10 extraída do 1040. | 123456 |
Box11 |
número | A caixa 11 extraída do 1040. | 123456 |
Box12 |
número | A caixa 12 extraída do 1040. | 123456 |
Box13 |
número | A caixa 13 extraída do 1040. | 123456 |
Box14 |
número | A caixa 14 extraída do 1040. | 123456 |
Box15 |
número | A caixa 15 extraída do 1040. | 123456 |
Box16FromForm |
string | O valor pode ser um de noSelection, 8814, 4972, outro ou multiSelection. | 8814 |
Box16FromFormDetails |
objeto | Um objeto que contém detalhes sobre a Caixa 16 | |
Box16OtherFormNumber |
string | Caixa 16 outro número de formulário extraído do 1040. | 8888 |
Box16 |
número | A caixa 16 extraída do 1040. | 123456 |
Box17 |
número | A caixa 17 extraída do 1040. | 123456 |
Box18 |
número | A caixa 18 extraída do 1040. | 123456 |
Box19 |
número | A caixa 19 extraída do 1040. | 123456 |
Box20 |
número | A caixa 20 extraída do 1040. | 123456 |
Box21 |
número | A caixa 21 extraída do 1040. | 123456 |
Box22 |
número | A caixa 22 extraída do 1040. | 123456 |
Box23 |
número | A caixa 23 extraída do 1040. | 123456 |
Box24 |
número | A caixa 24 extraída do 1040. | 123456 |
Box25a |
número | A caixa 25a extraída do 1040. |
123456 |
Box25b |
número | A caixa 25b extraída do 1040. |
123456 |
Box25c |
número | A caixa 25c extraída do 1040. |
123456 |
Box25d |
número | A caixa 25d extraída do 1040. |
123456 |
Box26 |
número | A caixa 26 extraída do 1040. | 123456 |
Box27 |
número | A caixa 27 extraída do 1040. | 123456 |
Box28 |
número | A caixa 28 extraída do 1040. | 123456 |
Box29 |
número | A caixa 29 extraída do 1040. | 123456 |
Box31 |
número | A caixa 31 extraída do 1040. | 123456 |
Box32 |
número | A caixa 32 extraída do 1040. | 123456 |
Box33 |
número | A caixa 33 extraída do 1040. | 123456 |
Box34 |
número | A caixa 34 extraída do 1040. | 123456 |
Box35Checkbox |
boolean | Caixa de seleção 35 extraída do 1040. | true |
Box35a |
número | A caixa 35a extraída do 1040. |
123456 |
Box35b |
número | A caixa 35b extraída do 1040. |
123456 |
Box35c |
string | O valor pode ser um de noSelection, verificação, economias ou multiSelection. | verificando |
Box35cDetails |
objeto | Um objeto que contém detalhes sobre a Caixa 35c |
|
Box35d |
número | A caixa 35d extraída do 1040. |
123456 |
Box36 |
número | A caixa 36 extraída do 1040. | 123456 |
Box37 |
número | A caixa 37 extraída do 1040. | 123456 |
Box38 |
número | A caixa 38 extraída do 1040. | 123456 |
HasAssignedThirdPartyDesignee |
string | O valor pode ser um de noSelection, sim, não ou multiSelection. | sim |
HasAssignedThirdPartyDesigneeDetails |
objeto | Objeto que contém informações sobre o que foi selecionado para o terceiros designado atribuído |
Os pares de chave-valor dos documentos fiscais e os itens de linha extraídos estão na seção documentResults
da saída JSON.
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de