Document Intelligence Modelos de documentos fiscais dos EUA
Importante
- As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
- A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a versão 2024-02-29-preview.
- A versão de pré-visualização pública 2024-02-29-preview está atualmente disponível apenas nas seguintes regiões do Azure:
- E.U.A. Leste
- Oeste dos EUA2
- Europa Ocidental
Este conteúdo aplica-se a:v4.0 (visualização) | Versões anteriores:v3.1 (GA)
Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (visualização)
O modelo de contrato de Inteligência Documental usa poderosos recursos de Reconhecimento Ótico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo selecionado de documentos fiscais. Os documentos fiscais podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como nome do cliente, endereço de cobrança, data de vencimento e valor devido; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo suporta determinados formatos de documentos fiscais em inglês.
Tipos de documentos suportados:
- W-2
- 1098
- Artigo 1098-E
- 1098-T
- 1099 e variações (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
- 1040 e variações (Cronograma 1, Cronograma 2, Cronograma 3, Cronograma 8812, Cronograma A, Cronograma B, Cronograma C, Cronograma D, Cronograma E, Cronograma
EIC
F, Cronograma H, Cronograma J, Cronograma R, Cronograma SE e Cronograma Sênior)
Processamento automatizado de documentos fiscais
O processamento automatizado de documentos fiscais é o processo de extração de campos-chave de documentos fiscais. Historicamente, os documentos fiscais eram processados manualmente. Este modelo permite a fácil automatização de cenários fiscais.
Opções de desenvolvimento
O Document Intelligence v4.0 (2023-10-31-preview) suporta as seguintes ferramentas, aplicações e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Modelos de formulário de imposto dos EUA | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• pré-built-tax.us.pt W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3• prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Modelos de formulário de imposto dos EUA | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:
Caraterística | Recursos | Model ID |
---|---|---|
Modelos de formulário de imposto dos EUA | • Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Requisitos de entrada
Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Formatos de ficheiro suportados:
Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTMLLida ✔ ✔ ✔ Esquema ✔ ✔ ✔ (2024-02-29-pré-visualização, 2023-10-31-pré-visualização) Documento Geral ✔ ✔ Pré-criado ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-02-29-pré-visualização) Para PDF e TIFF, até 2000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a texto de cerca
8
de -ponto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1GB
de no máximo 10.000 páginas.
Experimente a extração de dados de documentos fiscais
Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das faturas. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.
Estúdio de Inteligência de Documentação
Na página inicial do Document Intelligence Studio, selecione o modelo de documento fiscal suportado.
Pode analisar um exemplo de documento fiscal ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Idiomas e localidades suportados
Consulte a nossa página Suporte a idiomas — modelos pré-construídos para obter uma lista completa dos idiomas suportados.
Extração de campo W-2
A seguir estão os campos extraídos de um formulário de imposto W-2 na resposta de saída JSON.
Nome | Tipo | Description | Exemplo de saída | dependentes |
---|---|---|---|---|
W-2FormVariant |
String | Variante do formulário IR W-2. Este campo pode ter um dos seguintes valores: W-2 , W-2AS , W-2CM , W-2GU , ou W-2VI |
W-2 | |
TaxYear |
Número | Formulário de ano fiscal | 2021 | |
W2Copy |
String | Versão da cópia fiscal W-2 juntamente com instruções impressas relacionadas com esta cópia | Cópia A—Para Administração da Segurança Social | |
Employee |
objeto | Objeto que contém número de segurança social, nome e endereço | ||
ControlNumber |
string | Número de controlo W-2. IRS W-2 campo d | 0AB12 D345 7890 | |
Employer |
Object | Objeto que contém número, nome e endereço de identificação do empregador | ||
WagesTipsAndOtherCompensation |
Número | Salários, gorjetas e outros valores de compensação em USD. IRS W-2 campo 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
Número | Valor retido do imposto de renda federal em USD. IRS W-2 campo 2 | 1234567.89 | |
SocialSecurityWages |
Número | Valor dos salários da segurança social em USD. IRS W-2 campo 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
Número | Valor retido do imposto de segurança social em USD. IRS W-2 campo 4 | 1234567.89 | |
MedicareWagesAndTips |
Número | Salários do Medicare e gorjetas em USD. IRS W-2 campo 5 | 1234567.89 | |
MedicareTaxWithheld |
Número | Valor retido do imposto Medicare em USD. IRS W-2 campo 6 | 1234567.89 | |
SocialSecurityTips |
Número | Valor das gorjetas da segurança social em USD. IRS W-2 campo 7 | 1234567.89 | |
AllocatedTips |
Número | Dicas alocadas em USD. IRS W-2 campo 8 | 1234567.89 | |
VerificationCode |
Número | Código de verificação W-2. IRS W-2 campo 9 | 1234567.89 | |
DependentCareBenefits |
Número | O valor dos benefícios de cuidados a dependentes é em USD. IRS W-2 campo 10 | 1234567.89 | |
NonQualifiedPlans |
Número | Valor dos planos não qualificados em USD. IRS W-2 campo 11 | 1234567.89 | |
IsStatutoryEmployee |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | verdadeiro | |
IsRetirementPlan |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | verdadeiro | |
IsThirdPartySickPay |
String | Parte do campo 13 do IRS W-2. Pode ser verdadeiro ou falso | verdadeiro | |
Other |
String | Conteúdo do campo 14 do IRS W-2 | SALÁRIO LV DOENTE SBJT PARA $511/DIA LIMITE 1356 | |
StateTaxInfos |
Matriz | Informações fiscais do Estado. conteúdo do campo 15 a 17 do IRS W-2 | ||
LocaleTaxInfos |
Matriz | Informações locais relacionadas com impostos. Conteúdo do campo 18 a 20 do IRS W-2 |
Extração no campo 1098
A seguir estão os campos extraídos de um formulário de imposto 1098 na resposta de saída JSON. Os formulários 1098-T e 1098-E também são suportados.
Nome | Tipo | Description | Exemplo de saída |
---|---|---|---|
Ano Fiscal | Número | Formulário de ano fiscal | 2021 |
Mutuário | Object | Um objeto que contém o NIF, Nome, Endereço e Número de Conta do mutuário | |
Credor | Object | Um objeto que contém o NIF, o nome, o endereço e o telefone do credor | |
Juros Hipotecários | Número | Hipoteca Montante dos juros recebidos do(s) pagador(es)/mutuário(s) (caixa 1) | 1,234,567.89 |
PendenteHipotecárioPrincipal | Número | Capital hipotecário pendente (caixa 2) | 1,234,567.89 |
HipotecaOriginaçãoData | Date | Data de constituição da hipoteca (casa n.o 3) | 2022-01-01 |
Reembolso de juros pagos em excesso | Número | Montante de reembolso dos juros pagos em excesso (casa n.o 4) | 1,234,567.89 |
Seguro HipotecárioPremium | Número | Montante do prémio do seguro hipotecário (caixa 5) | 1,234,567.89 |
PontosPagos | Número | Pontos pagos na compra da residência principal (casa 6) | 1,234,567.89 |
IsPropertyAddressSameAsMutuário | String | O endereço do imóvel que garante a hipoteca é o mesmo que o endereço postal do ordenante/mutuário (casa n.o 7) | verdadeiro |
PropertyAddress | String | Endereço ou descrição do imóvel que garante a hipoteca (casa n.o 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | Número | Número de imóveis hipotecados (casa n.o 9) | 1 |
Outro | String | Informações adicionais a comunicar ao ordenante (casa n.o 10) | |
Imposto Imobiliário | Número | Imposto predial (caixa 1) | 1,234,567.89 |
Avaliação adicional | String | Avaliações adicionais feitas na propriedade (caixa 10) | 1,234,567.89 |
HipotecaAquisiçãoData | data | Data de aquisição da hipoteca (caixa 11) | 2022-01-01 |
Extração de campo 1099-NEC
A seguir estão os campos extraídos de um formulário de imposto 1099-nec na resposta de saída JSON. As outras variações de 1099 também são suportadas.
Nome | Tipo | Description | Exemplo de saída |
---|---|---|---|
TaxYear |
String | Ano fiscal extraído do formulário 1099-NEC. | 2021 |
Payer |
Object | Um objeto que contém o NIF, o nome, o endereço e o número de telefone do pagador | |
Recipient |
Object | Um objeto que contém o NIF, Name, Address e AccountNumber do destinatário | |
Box1 |
Número | Casa n.o 1 extraída do formulário 1099-NEC. | 123456 |
Box2 |
boolean | Caixa 2 extraída do formulário 1099-NEC. | verdadeiro |
Box4 |
Número | Casa n.o 4 extraída do formulário 1099-NEC. | 123456 |
StateTaxesWithheld |
matriz | Impostos Estaduais Retidos na Fonte extraídos do Formulário 1099-NEC (caixas 5, 6 e 7) |
Extração de campo 1040 formulário fiscal
A seguir estão os campos extraídos de um formulário de imposto 1040 na resposta de saída JSON. As outras variações de 1040 também são suportadas.
Nome | Tipo | Description | Exemplo de saída |
---|---|---|---|
TaxPayer |
Object | Um objeto que contém informações do contribuinte, como SSN, Sobrenome e Endereço | |
Spouse |
Object | Um objeto que contém informações do cônjuge, como CPF, sobrenome, nome próprio e iniciais Nome | |
Dependents |
matriz | Uma matriz que contém uma lista de dependentes, incluindo informações como Nome, SSN e Tipo de Crédito | |
ThirdPartyDesignee |
objeto | Um objeto que contém informações sobre o terceiro designado | |
SignatureDetails |
objeto | Um objeto que contém informações sobre o signatário, como números de telefone e e-mails | |
PaidPreparer |
objeto | Um objeto que contém informações sobre o preparador. | |
FillingStatus |
String | O valor pode ser um de noSelection, solteiro, casadoJuntos, casadosPreenchendo separadamente, chefe de família, qualificandoSobrevivendoCônjuge ou multiSeleção. | solteiro |
FilingStatusDetails |
objeto | Um objeto que contém informações sobre o status do depósito. | |
NameOfSpouseOrQualifyingPerson |
String | Nome do cônjuge ou pessoa qualificada extraído do formulário 1040. | John Smith |
PresidentialElectionCampaign |
String | O valor pode ser um de noSelection, contribuinte, cônjuge ou multiSelection. | Contribuinte |
PresidentialElectionCampaignDetails |
objeto | Um objeto que contém detalhes sobre a campanha eleitoral presidencial. | |
DigitalAssets |
String | O valor pode ser um de noSelection, yes, no ou multiSelection. | sim |
DigitalAssetsDetails |
objeto | Um objeto que contém detalhes sobre os ativos digitais. | |
ClaimStatus |
String | O valor pode ser um de noSelection, contribuinteAsDependent, cônjugeAsDependente, cônjugeItemizesSeparadamenteOrDualStatusAlien ou multiSelection. | contribuinteAsDependente |
ClaimStatusDetails |
objeto | Um objeto que contém detalhes sobre o status da declaração. | |
TaxpayerAgeBlindness |
String | O valor pode ser um de noSelection, above64 , blind ou multiSelection. |
acima64 |
TaxPayerAgeBlindnessDetails |
objeto | Um objeto que contém detalhes sobre a cegueira etária do contribuinte. | |
SpouseAgeBlindness |
String | O valor pode ser um de noSelection, above64 , blind ou multiSelection. |
acima64 |
TaxPayerAgeBlindnessDetails |
objeto | Um objeto que contém detalhes sobre a cegueira etária do cônjuge. | |
MoreThanFourDependents |
boolean | Mais de quatro dependentes extraídos do formulário 1040. | verdadeiro |
Box1a |
Número | Caixa 1a extraída de 1040. |
123456 |
Com base na estrutura JSON fornecida e convertendo-a no mesmo formato de tabela solicitado, o resultado é o seguinte: | |||
Box1b |
Número | Caixa 1b extraída de 1040. |
123456 |
Box1c |
Número | Caixa 1c extraída de 1040. |
123456 |
Box1d |
Número | Caixa 1d extraída de 1040. |
123456 |
Box1e |
Número | Caixa 1e extraída de 1040. |
123456 |
Box1f |
Número | Caixa 1f extraída de 1040. |
123456 |
Box1g |
Número | Caixa 1g extraída de 1040. |
123456 |
Box1h |
Número | Caixa 1h extraída de 1040. |
123456 |
Box1i |
Número | Caixa 1i extraída de 1040. |
123456 |
Box1z |
Número | Caixa 1z extraída de 1040. |
123456 |
Box2a |
Número | Caixa 2a extraída de 1040. |
123456 |
Box2b |
Número | Caixa 2b extraída de 1040. |
123456 |
Box3a |
Número | Caixa 3a extraída de 1040. |
123456 |
Box3b |
Número | Caixa 3b extraída de 1040. |
123456 |
Box4a |
Número | Caixa 4a extraída de 1040. |
123456 |
Box4b |
Número | Caixa 4b extraída de 1040. |
123456 |
Box5a |
Número | Caixa 5a extraída de 1040. |
123456 |
Box5b |
Número | Caixa 5b extraída de 1040. |
123456 |
Box6a |
Número | Caixa 6a extraída de 1040. |
123456 |
Box6b |
Número | Caixa 6b extraída de 1040. |
123456 |
Box6cCheckbox |
boolean | Caixa 6c de seleção extraída de 1040. |
verdadeiro |
Box7Checkbox |
boolean | Caixa 7 Caixa de verificação extraída de 1040. | verdadeiro |
Box7 |
Número | Caixa 7 extraída de 1040. | 123456 |
Box8 |
Número | Caixa 8 extraída de 1040. | 123456 |
Box9 |
Número | Caixa 9 extraída de 1040. | 123456 |
Box10 |
Número | Caixa 10 extraída de 1040. | 123456 |
Box11 |
Número | Caixa 11 extraída de 1040. | 123456 |
Box12 |
Número | Caixa 12 extraída de 1040. | 123456 |
Box13 |
Número | Caixa 13 extraída de 1040. | 123456 |
Box14 |
Número | Caixa 14 extraída de 1040. | 123456 |
Box15 |
Número | Caixa 15 extraída de 1040. | 123456 |
Box16FromForm |
string | O valor pode ser um de noSelection, 8814, 4972, outro ou multiSelection. | 8814 |
Box16FromFormDetails |
objeto | Objeto que contém detalhes sobre a Caixa 16 | |
Box16OtherFormNumber |
string | Casa n.o 16 Outro número de formulário extraído de 1040. | 8888 |
Box16 |
Número | Caixa 16 extraída de 1040. | 123456 |
Box17 |
Número | Caixa 17 extraída de 1040. | 123456 |
Box18 |
Número | Caixa 18 extraída de 1040. | 123456 |
Box19 |
Número | Caixa 19 extraída de 1040. | 123456 |
Box20 |
Número | Caixa 20 extraída de 1040. | 123456 |
Box21 |
Número | Caixa 21 extraída de 1040. | 123456 |
Box22 |
Número | Caixa 22 extraída de 1040. | 123456 |
Box23 |
Número | Caixa 23 extraída de 1040. | 123456 |
Box24 |
Número | Caixa 24 extraída de 1040. | 123456 |
Box25a |
Número | Caixa 25a extraída de 1040. |
123456 |
Box25b |
Número | Caixa 25b extraída de 1040. |
123456 |
Box25c |
Número | Caixa 25c extraída de 1040. |
123456 |
Box25d |
Número | Caixa 25d extraída de 1040. |
123456 |
Box26 |
Número | Caixa 26 extraída de 1040. | 123456 |
Box27 |
Número | Caixa 27 extraída de 1040. | 123456 |
Box28 |
Número | Caixa 28 extraída de 1040. | 123456 |
Box29 |
Número | Caixa 29 extraída de 1040. | 123456 |
Box31 |
Número | Caixa 31 extraída de 1040. | 123456 |
Box32 |
Número | Caixa 32 extraída de 1040. | 123456 |
Box33 |
Número | Caixa 33 extraída de 1040. | 123456 |
Box34 |
Número | Caixa 34 extraída de 1040. | 123456 |
Box35Checkbox |
boolean | Caixa 35 Caixa de verificação extraída de 1040. | verdadeiro |
Box35a |
Número | Caixa 35a extraída de 1040. |
123456 |
Box35b |
Número | Caixa 35b extraída de 1040. |
123456 |
Box35c |
string | O valor pode ser um de noSelection, checking, savings ou multiSelection. | verificação |
Box35cDetails |
objeto | Objeto que contém detalhes sobre Box 35c |
|
Box35d |
Número | Caixa 35d extraída de 1040. |
123456 |
Box36 |
Número | Caixa 36 extraída de 1040. | 123456 |
Box37 |
Número | Caixa 37 extraída de 1040. | 123456 |
Box38 |
Número | Caixa 38 extraída de 1040. | 123456 |
HasAssignedThirdPartyDesignee |
string | O valor pode ser um de noSelection, yes, no ou multiSelection. | sim |
HasAssignedThirdPartyDesigneeDetails |
objeto | Objeto que contém informações sobre o que foi selecionado para o terceiro designado atribuído |
As notas fiscais, os pares chave-valor e os itens de linha extraídos estão na documentResults
seção da saída JSON.
Próximos passos
Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.