Dokumentinformation – amerikanska skattedokumentmodeller

Viktigt!

  • Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling.
  • Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
  • Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-02-29-preview.
  • Förhandsversion 2024-02-29-preview är för närvarande endast tillgänglig i följande Azure-regioner:
  • USA, östra
  • USA, västra 2
  • Europa, västra

Det här innehållet gäller för:Bockmarkeringv4.0 (förhandsversion) | Tidigare versioner:blå bockmarkeringv3.1 (GA)

Det här innehållet gäller för:Bockmarkeringv3.1 (GA) | Senaste version:lila bockmarkeringv4.0 (förhandsversion)

Avtalsmodellen för dokumentinformation använder kraftfulla OCR-funktioner (Optisk teckenigenkänning) för att analysera och extrahera nyckelfält och radobjekt från en utvald grupp med skattedokument. Skattedokument kan ha olika format och kvalitet, inklusive telefontagna bilder, skannade dokument och digitala PDF-filer. API:et analyserar dokumenttext; extraherar viktig information som kundnamn, faktureringsadress, förfallodatum och förfallodatum. och returnerar en strukturerad JSON-datarepresentation. Modellen stöder för närvarande vissa format för engelska skattedokument.

Dokumenttyper som stöds:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 och variationer (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 och varianter (schema 1, schema 2, schema 3, schema 8812, schema A, schema B, schema C, schema D, schema E, schema, schema EICF, schema H, schema J, schema R, schema SE och schema senior)

Automatiserad bearbetning av skattedokument

Automatiserad bearbetning av skattedokument är processen för att extrahera nyckelfält från skattedokument. Tidigare har skattedokument bearbetats manuellt. Den här modellen möjliggör enkel automatisering av skattescenarier.

Utvecklingsalternativ

Document Intelligence v4.0 (2023-10-31-preview) stöder följande verktyg, program och bibliotek:

Funktion Resurser Model ID
Amerikanska skatteformulärmodeller Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• förbyggdt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuililt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• förbyggdt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC

prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.10 99Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us .1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812

prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Document Intelligence v3.1 stöder följande verktyg, program och bibliotek:

Funktion Resurser Model ID
Amerikanska skatteformulärmodeller Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Document Intelligence v3.0 stöder följande verktyg, program och bibliotek:

Funktion Resurser Model ID
Amerikanska skatteformulärmodeller Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Indatakrav

  • För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.

  • Filformat som stöds:

    Modell PDF Bild:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) och HTML
    Läsa
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Allmänt dokument
    Inbyggda
    Anpassad extrahering
    Anpassad klassificering ✔ (2024-02-29-preview)
  • För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en kostnadsfri nivåprenumeration bearbetas endast de två första sidorna).

  • Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).

  • Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.

  • Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.

  • Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär 8-punkttext vid 150 punkter per tum (DPI).

  • För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.

    • För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.

    • För anpassad klassificeringsmodellträning är 1GB den totala storleken på träningsdata med högst 10 000 sidor.

Prova extrahering av skattedokument

Se hur data, inklusive kundinformation, leverantörsinformation och radobjekt, extraheras från fakturor. Du behöver följande resurser:

  • En Azure-prenumeration – du kan skapa en kostnadsfritt.

  • En instans av dokumentinformation i Azure-portalen. Du kan använda den kostnadsfria prisnivån (F0) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.

Skärmbild av nycklar och slutpunktsplats i Azure-portalen.

Document Intelligence Studio

  1. På startsidan för Document Intelligence Studio väljer du den skattedokumentmodell som stöds.

  2. Du kan analysera ett exempel på skattedokument eller ladda upp dina egna filer.

  3. Välj knappen Kör analys och konfigurera vid behov alternativen Analysera :

    Skärmbild av knapparna Kör analys och Analysera alternativ i Document Intelligence Studio.

Språk och nationella inställningar som stöds

Se sidan Språkstöd – fördefinierade modeller för en fullständig lista över språk som stöds.

Fältextrahering W-2

Följande är fälten som extraheras från ett W-2-skatteformulär i JSON-utdatasvaret.

Namn Type Beskrivning Exempel på utdata Anhöriga
W-2FormVariant String IR W-2 Formulärvariant. Det här fältet kan ha något av följande värden: W-2, W-2AS, W-2CM, W-2GUeller W-2VI W-2
TaxYear Antal Formulärskatteår 2021
W2Copy String W-2 skattekopieringsversion tillsammans med tryckt instruktion relaterad till den här kopian Kopiera A – för socialförsäkringsadministration
Employee objekt Objekt som innehåller personnummer, namn och adress
ControlNumber sträng W-2-kontrollnummer. IRS W-2 fält d 0AB12 D345 7890
Employer Objekt Objekt som innehåller arbetsgivarens ID-nummer, namn och adress
WagesTipsAndOtherCompensation Antal Löner, tips och annat ersättningsbelopp i USD. IRS W-2 fält 1 1234567.89
FederalIncomeTaxWithheld Antal Federal inkomstskatt undanhöll belopp i USD. IRS W-2 fält 2 1234567.89
SocialSecurityWages Antal Socialförsäkringslöner uppgår i USD. IRS W-2 fält 3 1234567.89
SocialSecurityTaxWithheld Antal Socialförsäkringsskatt undanhållna belopp i USD. IRS W-2 fält 4 1234567.89
MedicareWagesAndTips Antal Medicare löner och tips belopp i USD. IRS W-2 fält 5 1234567.89
MedicareTaxWithheld Antal Medicare-skatt undanhöll belopp i USD. IRS W-2 fält 6 1234567.89
SocialSecurityTips Antal Socialförsäkringstips belopp i USD. IRS W-2 fält 7 1234567.89
AllocatedTips Antal Allokerade tips i USD. IRS W-2 fält 8 1234567.89
VerificationCode Antal W-2-verifieringskod. IRS W-2 fält 9 1234567.89
DependentCareBenefits Antal Beroende vårdförmåner belopp i USD. IRS W-2-fält 10 1234567.89
NonQualifiedPlans Antal Ej kvalificerade abonnemang uppgår till USD. IRS W-2-fält 11 1234567.89
IsStatutoryEmployee String Del av IRS W-2-fältet 13. Kan vara sant eller falskt true
IsRetirementPlan String Del av IRS W-2-fältet 13. Kan vara sant eller falskt true
IsThirdPartySickPay String Del av IRS W-2-fältet 13. Kan vara sant eller falskt true
Other String Innehållet i IRS W-2-fältet 14 SJUK LV LÖNER SBJT TILL $511/DAY LIMIT 1356
StateTaxInfos Matris Statlig skatterelaterad information. innehållet i IRS W-2-fältet 15 till 17
LocaleTaxInfos Matris Lokal skatterelaterad information. Innehållet i IRS W-2-fältet 18 till 20

Fältextrahering 1098

Följande är fälten som extraheras från ett 1098-skatteformulär i JSON-utdatasvaret. Formulären 1098-T och 1098-E stöds också.

Namn Type Beskrivning Exempel på utdata
TaxYear Antal Formulärskatteår 2021
Låntagaren Objekt Ett objekt som innehåller låntagarens TIN, Namn, Adress och AccountNumber
Långivare Objekt Ett objekt som innehåller långivarens TIN, Namn, Adress och Telefon
MortgageInterest Antal Inteckning Räntebelopp som erhållits från betalare/låntagare (ruta 1) 1,234,567.89
OutstandingMortgagePrincipal Antal Utestående amorteringsobjekt (ruta 2) 1,234,567.89
MortgageOriginationDate Datum Ursprungsdatum för inteckningen (ruta 3) 2022-01-01
OverpaidInterestRefund Antal Återbetalningsbelopp för överbetalda räntor (ruta 4) 1,234,567.89
MortgageInsurancePremium Antal Premiebelopp för inteckningsförsäkring (ruta 5) 1,234,567.89
PointsPaid Antal Poäng som betalas vid köp av huvudhem (Box 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String Är adressen till fastigheten som säkrar inteckningen samma som betalarens/låntagarens postadress (ruta 7) true
PropertyAddress String Adress eller beskrivning av fastigheten som skyddar inteckningen (ruta 8) 123 Huvudsakliga St., Redmond WA 98052
MortgagedPropertiesCount Antal Antal intecknade fastigheter (ruta 9) 1
Övrigt String Ytterligare information för att rapportera till betalaren (ruta 10)
RealEstateTax Antal Fastighetsskatt (ruta 1) 1,234,567.89
AdditionalAssessment String Utvärderingar som gjorts på egenskapen (ruta 10) har lagts till 1,234,567.89
MortgageAcquisitionDate datum Datum för inteckningsförvärv (ruta 11) 2022-01-01

Fältextrahering 1099-NEC

Följande är fälten som extraheras från ett 1099-nec-skatteformulär i JSON-utdatasvaret. De andra varianterna av 1099 stöds också.

Namn Type Beskrivning Exempel på utdata
TaxYear String Beskattningsår som extraherats från formulär 1099-NEC. 2021
Payer Objekt Ett objekt som innehåller betalarens TIN, Namn, Adress och Telefon Number
Recipient Objekt Ett objekt som innehåller mottagarens TIN, Namn, Adress och AccountNumber
Box1 Nummer Ruta 1 extraherad från formulär 1099-NEC. 123456
Box2 boolean Ruta 2 extraherad från formulär 1099-NEC. true
Box4 Nummer Ruta 4 extraherad från formulär 1099-NEC. 123456
StateTaxesWithheld matris Statliga skatter undanhålls från formulär 1099-NEC (rutorna 5, 6 och 7)

Fältextrahering 1040 skatteformulär

Följande är fälten som extraheras från ett 1040-skatteformulär i JSON-utdatasvaret. De andra varianterna på 1040 stöds också.

Namn Type Beskrivning Exempel på utdata
TaxPayer Objekt Ett objekt som innehåller skattebetalarnas information, till exempel SSN, efternamn och adress
Spouse Objekt Ett objekt som innehåller makens information såsom SSN, efternamn och förnamn och initialer Namn
Dependents matris En matris som innehåller en lista över beroenden, inklusive information som Namn, SSN och Kredittyp
ThirdPartyDesignee objekt Ett objekt som innehåller information om tredjepartsdesignobjektet
SignatureDetails objekt Ett objekt som innehåller information om undertecknaren, till exempel telefonnummer och e-postmeddelanden
PaidPreparer objekt Ett objekt som innehåller information om förberedaren.
FillingStatus String Värdet kan vara ett av noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse eller multiSelection. Enda
FilingStatusDetails objekt Ett objekt som innehåller information om arkiveringsstatusen.
NameOfSpouseOrQualifyingPerson String Namn på make/maka eller kvalificerande person som utvunnits från formulär 1040. John Svensson
PresidentialElectionCampaign String Värdet kan vara ett av noSelection, skattebetalare, make/maka eller multiSelection. Skattebetalarna
PresidentialElectionCampaignDetails objekt Ett objekt som innehåller information om presidentvalskampanjen.
DigitalAssets String Värdet kan vara ett av noSelection, ja, nej eller multiSelection. ja
DigitalAssetsDetails objekt Ett objekt som innehåller information om de digitala tillgångarna.
ClaimStatus String Värdet kan vara ett av noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien eller multiSelection. taxpayerAsDependent
ClaimStatusDetails objekt Ett objekt som innehåller information om anspråksstatusen.
TaxpayerAgeBlindness String Värdet kan vara ett av noSelection, above64, blind eller multiSelection. över 64
TaxPayerAgeBlindnessDetails objekt Ett objekt som innehåller information om skattebetalarnas åldersblindhet.
SpouseAgeBlindness String Värdet kan vara ett av noSelection, above64, blind eller multiSelection. över 64
TaxPayerAgeBlindnessDetails objekt Ett objekt som innehåller information om makens åldersblindhet.
MoreThanFourDependents boolean Fler än fyra beroenden som extraherats från formulär 1040. true
Box1a Nummer Box 1a extraherad från 1040. 123456
Resultatet baseras på den angivna JSON-strukturen och konverterar den till samma tabellformat som begärt:
Box1b Nummer Box 1b extraherad från 1040. 123456
Box1c Nummer Box 1c extraherad från 1040. 123456
Box1d Nummer Box 1d extraherad från 1040. 123456
Box1e Nummer Box 1e extraherad från 1040. 123456
Box1f Nummer Box 1f extraherad från 1040. 123456
Box1g Nummer Box 1g extraherad från 1040. 123456
Box1h Nummer Box 1h extraherad från 1040. 123456
Box1i Nummer Box 1i extraherad från 1040. 123456
Box1z Nummer Box 1z extraherad från 1040. 123456
Box2a Nummer Box 2a extraherad från 1040. 123456
Box2b Nummer Box 2b extraherad från 1040. 123456
Box3a Nummer Box 3a extraherad från 1040. 123456
Box3b Nummer Box 3b extraherad från 1040. 123456
Box4a Nummer Box 4a extraherad från 1040. 123456
Box4b Nummer Box 4b extraherad från 1040. 123456
Box5a Nummer Box 5a extraherad från 1040. 123456
Box5b Nummer Box 5b extraherad från 1040. 123456
Box6a Nummer Box 6a extraherad från 1040. 123456
Box6b Nummer Box 6b extraherad från 1040. 123456
Box6cCheckbox boolean Kryssruta 6c som extraherats från 1040. true
Box7Checkbox boolean Kryssruta 7 extraherad från 1040. true
Box7 Nummer Ruta 7 extraherad från 1040. 123456
Box8 Nummer Ruta 8 extraherad från 1040. 123456
Box9 Nummer Ruta 9 extraherad från 1040. 123456
Box10 Nummer Ruta 10 extraherad från 1040. 123456
Box11 Nummer Box 11 extraherad från 1040. 123456
Box12 Nummer Ruta 12 extraherad från 1040. 123456
Box13 Nummer Box 13 extraherad från 1040. 123456
Box14 Nummer Ruta 14 extraherad från 1040. 123456
Box15 Nummer Box 15 extraherad från 1040. 123456
Box16FromForm sträng Värdet kan vara ett av noSelection, 8814, 4972, annat eller multiSelection. 8814
Box16FromFormDetails objekt Objekt som innehåller information om Box 16
Box16OtherFormNumber sträng Ruta 16 Annat formulärnummer extraherat från 1040. 8888
Box16 Nummer Box 16 extraherad från 1040. 123456
Box17 Nummer Box 17 extraherad från 1040. 123456
Box18 Nummer Box 18 extraherad från 1040. 123456
Box19 Nummer Ruta 19 extraherad från 1040. 123456
Box20 Nummer Box 20 extraherad från 1040. 123456
Box21 Nummer Ruta 21 extraherad från 1040. 123456
Box22 Nummer Box 22 extraherad från 1040. 123456
Box23 Nummer Ruta 23 extraherad från 1040. 123456
Box24 Nummer Box 24 extraherad från 1040. 123456
Box25a Nummer Box 25a extraherad från 1040. 123456
Box25b Nummer Box 25b extraherad från 1040. 123456
Box25c Nummer Box 25c extraherad från 1040. 123456
Box25d Nummer Box 25d extraherad från 1040. 123456
Box26 Nummer Box 26 extraherad från 1040. 123456
Box27 Nummer Box 27 extraherad från 1040. 123456
Box28 Nummer Box 28 extraherad från 1040. 123456
Box29 Nummer Box 29 extraherad från 1040. 123456
Box31 Nummer Box 31 extraherad från 1040. 123456
Box32 Nummer Box 32 extraherad från 1040. 123456
Box33 Nummer Ruta 33 extraherad från 1040. 123456
Box34 Nummer Ruta 34 extraherad från 1040. 123456
Box35Checkbox boolean Kryssruta 35 extraherad från 1040. true
Box35a Nummer Box 35a extraherad från 1040. 123456
Box35b Nummer Box 35b extraherad från 1040. 123456
Box35c sträng Värdet kan vara ett av noSelection, check, savings eller multiSelection. Kontrollera
Box35cDetails objekt Objekt som innehåller information om Box 35c
Box35d Nummer Box 35d extraherad från 1040. 123456
Box36 Nummer Box 36 extraherad från 1040. 123456
Box37 Nummer Box 37 extraherad från 1040. 123456
Box38 Nummer Box 38 extraherad från 1040. 123456
HasAssignedThirdPartyDesignee sträng Värdet kan vara ett av noSelection, ja, nej eller multiSelection. ja
HasAssignedThirdPartyDesigneeDetails objekt Objekt som innehåller information om vad som har valts för den tilldelade designobjektet från tredje part

Nyckel/värde-par och radobjekt som extraheras finns i avsnittet i documentResults JSON-utdata.

Nästa steg

  • Prova att bearbeta dina egna formulär och dokument med Document Intelligence Studio.

  • Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.