Dokumentinformation – amerikanska skattedokumentmodeller
Viktigt!
- Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling.
- Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
- Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-02-29-preview.
- Förhandsversion 2024-02-29-preview är för närvarande endast tillgänglig i följande Azure-regioner:
- USA, östra
- USA, västra 2
- Europa, västra
Det här innehållet gäller för: v4.0 (förhandsversion) | Tidigare versioner: v3.1 (GA)
Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (förhandsversion)
Avtalsmodellen för dokumentinformation använder kraftfulla OCR-funktioner (Optisk teckenigenkänning) för att analysera och extrahera nyckelfält och radobjekt från en utvald grupp med skattedokument. Skattedokument kan ha olika format och kvalitet, inklusive telefontagna bilder, skannade dokument och digitala PDF-filer. API:et analyserar dokumenttext; extraherar viktig information som kundnamn, faktureringsadress, förfallodatum och förfallodatum. och returnerar en strukturerad JSON-datarepresentation. Modellen stöder för närvarande vissa format för engelska skattedokument.
Dokumenttyper som stöds:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 och variationer (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
- 1040 och varianter (schema 1, schema 2, schema 3, schema 8812, schema A, schema B, schema C, schema D, schema E, schema, schema
EIC
F, schema H, schema J, schema R, schema SE och schema senior)
Automatiserad bearbetning av skattedokument
Automatiserad bearbetning av skattedokument är processen för att extrahera nyckelfält från skattedokument. Tidigare har skattedokument bearbetats manuellt. Den här modellen möjliggör enkel automatisering av skattescenarier.
Utvecklingsalternativ
Document Intelligence v4.0 (2023-10-31-preview) stöder följande verktyg, program och bibliotek:
Funktion | Resurser | Model ID |
---|---|---|
Amerikanska skatteformulärmodeller | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • förbyggdt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuililt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • förbyggdt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.10 99Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us .1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Document Intelligence v3.1 stöder följande verktyg, program och bibliotek:
Funktion | Resurser | Model ID |
---|---|---|
Amerikanska skatteformulärmodeller | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Document Intelligence v3.0 stöder följande verktyg, program och bibliotek:
Funktion | Resurser | Model ID |
---|---|---|
Amerikanska skatteformulärmodeller | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Indatakrav
För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
Filformat som stöds:
Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft kancelarija:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) och HTMLLästa ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Allmänt dokument ✔ ✔ Inbyggda ✔ ✔ Anpassad extrahering ✔ ✔ Anpassad klassificering ✔ ✔ ✔ (2024-02-29-preview) För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en kostnadsfri nivåprenumeration bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär
8
-punkttext vid 150 punkter per tum (DPI).För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.
För anpassad klassificeringsmodellträning är
1GB
den totala storleken på träningsdata med högst 10 000 sidor.
Prova extrahering av skattedokument
Se hur data, inklusive kundinformation, leverantörsinformation och radobjekt, extraheras från fakturor. Du behöver följande resurser:
En Azure-prenumeration – du kan skapa en kostnadsfritt.
En instans av dokumentinformation i Azure-portalen. Du kan använda den kostnadsfria prisnivån (
F0
) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.
Document Intelligence Studio
På startsidan för Document Intelligence Studio väljer du den skattedokumentmodell som stöds.
Du kan analysera ett exempel på skattedokument eller ladda upp dina egna filer.
Välj knappen Kör analys och konfigurera vid behov alternativen Analysera :
Språk och nationella inställningar som stöds
Se sidan Språkstöd – fördefinierade modeller för en fullständig lista över språk som stöds.
Fältextrahering W-2
Följande är fälten som extraheras från ett W-2-skatteformulär i JSON-utdatasvaret.
Namn | Type | Beskrivning | Exempel på utdata | Anhöriga |
---|---|---|---|---|
W-2FormVariant |
String | IR W-2 Formulärvariant. Det här fältet kan ha något av följande värden: W-2 , W-2AS , W-2CM , W-2GU eller W-2VI |
W-2 | |
TaxYear |
Antal | Formulärskatteår | 2021 | |
W2Copy |
String | W-2 skattekopieringsversion tillsammans med tryckt instruktion relaterad till den här kopian | Kopiera A – för socialförsäkringsadministration | |
Employee |
objekt | Objekt som innehåller personnummer, namn och adress | ||
ControlNumber |
sträng | W-2-kontrollnummer. IRS W-2 fält d | 0AB12 D345 7890 | |
Employer |
Objekt | Objekt som innehåller arbetsgivarens ID-nummer, namn och adress | ||
WagesTipsAndOtherCompensation |
Antal | Löner, tips och annat ersättningsbelopp i USD. IRS W-2 fält 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
Antal | Federal inkomstskatt undanhöll belopp i USD. IRS W-2 fält 2 | 1234567.89 | |
SocialSecurityWages |
Antal | Socialförsäkringslöner uppgår i USD. IRS W-2 fält 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
Antal | Socialförsäkringsskatt undanhållna belopp i USD. IRS W-2 fält 4 | 1234567.89 | |
MedicareWagesAndTips |
Antal | Medicare löner och tips belopp i USD. IRS W-2 fält 5 | 1234567.89 | |
MedicareTaxWithheld |
Antal | Medicare-skatt undanhöll belopp i USD. IRS W-2 fält 6 | 1234567.89 | |
SocialSecurityTips |
Antal | Socialförsäkringstips belopp i USD. IRS W-2 fält 7 | 1234567.89 | |
AllocatedTips |
Antal | Allokerade tips i USD. IRS W-2 fält 8 | 1234567.89 | |
VerificationCode |
Antal | W-2-verifieringskod. IRS W-2 fält 9 | 1234567.89 | |
DependentCareBenefits |
Antal | Beroende vårdförmåner belopp i USD. IRS W-2-fält 10 | 1234567.89 | |
NonQualifiedPlans |
Antal | Ej kvalificerade abonnemang uppgår till USD. IRS W-2-fält 11 | 1234567.89 | |
IsStatutoryEmployee |
String | Del av IRS W-2-fältet 13. Kan vara sant eller falskt | true | |
IsRetirementPlan |
String | Del av IRS W-2-fältet 13. Kan vara sant eller falskt | true | |
IsThirdPartySickPay |
String | Del av IRS W-2-fältet 13. Kan vara sant eller falskt | true | |
Other |
String | Innehållet i IRS W-2-fältet 14 | SJUK LV LÖNER SBJT TILL $511/DAY LIMIT 1356 | |
StateTaxInfos |
Matris | Statlig skatterelaterad information. innehållet i IRS W-2-fältet 15 till 17 | ||
LocaleTaxInfos |
Matris | Lokal skatterelaterad information. Innehållet i IRS W-2-fältet 18 till 20 |
Fältextrahering 1098
Följande är fälten som extraheras från ett 1098-skatteformulär i JSON-utdatasvaret. Formulären 1098-T och 1098-E stöds också.
Namn | Type | Beskrivning | Exempel på utdata |
---|---|---|---|
TaxYear | Antal | Formulärskatteår | 2021 |
Låntagare | Objekt | Ett objekt som innehåller låntagarens TIN, Namn, Adress och AccountNumber | |
Långivare | Objekt | Ett objekt som innehåller långivarens TIN, Namn, Adress och Telefon | |
MortgageInterest | Antal | Inteckning Räntebelopp som erhållits från betalare/låntagare (ruta 1) | 1,234,567.89 |
OutstandingMortgagePrincipal | Antal | Utestående amorteringsobjekt (ruta 2) | 1,234,567.89 |
MortgageOriginationDate | Datum | Ursprungsdatum för inteckningen (ruta 3) | 2022-01-01 |
OverpaidInterestRefund | Antal | Återbetalningsbelopp för överbetalda räntor (ruta 4) | 1,234,567.89 |
MortgageInsurancePremium | Antal | Premiebelopp för inteckningsförsäkring (ruta 5) | 1,234,567.89 |
PointsPaid | Antal | Poäng som betalas vid köp av huvudhem (Box 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | String | Är adressen till fastigheten som säkrar inteckningen samma som betalarens/låntagarens postadress (ruta 7) | true |
PropertyAddress | String | Adress eller beskrivning av fastigheten som skyddar inteckningen (ruta 8) | 123 Huvudsakliga St., Redmond WA 98052 |
MortgagedPropertiesCount | Antal | Antal intecknade fastigheter (ruta 9) | 1 |
Övrigt | String | Ytterligare information för att rapportera till betalaren (ruta 10) | |
RealEstateTax | Antal | Fastighetsskatt (ruta 1) | 1,234,567.89 |
AdditionalAssessment | String | Utvärderingar som gjorts på egenskapen (ruta 10) har lagts till | 1,234,567.89 |
MortgageAcquisitionDate | datum | Datum för inteckningsförvärv (ruta 11) | 2022-01-01 |
Fältextrahering 1099-NEC
Följande är fälten som extraheras från ett 1099-nec-skatteformulär i JSON-utdatasvaret. De andra varianterna av 1099 stöds också.
Namn | Type | Beskrivning | Exempel på utdata |
---|---|---|---|
TaxYear |
String | Beskattningsår som extraherats från formulär 1099-NEC. | 2021 |
Payer |
Objekt | Ett objekt som innehåller betalarens TIN, Namn, Adress och PhoneNumber | |
Recipient |
Objekt | Ett objekt som innehåller mottagarens TIN, Namn, Adress och AccountNumber | |
Box1 |
Nummer | Ruta 1 extraherad från formulär 1099-NEC. | 123456 |
Box2 |
boolean | Ruta 2 extraherad från formulär 1099-NEC. | true |
Box4 |
Nummer | Ruta 4 extraherad från formulär 1099-NEC. | 123456 |
StateTaxesWithheld |
matris | Statliga skatter undanhålls från formulär 1099-NEC (rutorna 5, 6 och 7) |
Fältextrahering 1040 skatteformulär
Följande är fälten som extraheras från ett 1040-skatteformulär i JSON-utdatasvaret. De andra varianterna på 1040 stöds också.
Namn | Type | Beskrivning | Exempel på utdata |
---|---|---|---|
TaxPayer |
Objekt | Ett objekt som innehåller skattebetalarnas information, till exempel SSN, efternamn och adress | |
Spouse |
Objekt | Ett objekt som innehåller makens information såsom SSN, efternamn och förnamn och initialer Namn | |
Dependents |
matris | En matris som innehåller en lista över beroenden, inklusive information som Namn, SSN och Kredittyp | |
ThirdPartyDesignee |
objekt | Ett objekt som innehåller information om tredjepartsdesignobjektet | |
SignatureDetails |
objekt | Ett objekt som innehåller information om undertecknaren, till exempel telefonnummer och e-postmeddelanden | |
PaidPreparer |
objekt | Ett objekt som innehåller information om förberedaren. | |
FillingStatus |
String | Värdet kan vara ett av noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse eller multiSelection. | singel |
FilingStatusDetails |
objekt | Ett objekt som innehåller information om arkiveringsstatusen. | |
NameOfSpouseOrQualifyingPerson |
String | Namn på make/maka eller kvalificerande person som utvunnits från formulär 1040. | John Svensson |
PresidentialElectionCampaign |
String | Värdet kan vara ett av noSelection, skattebetalare, make/maka eller multiSelection. | Skattebetalare |
PresidentialElectionCampaignDetails |
objekt | Ett objekt som innehåller information om presidentvalskampanjen. | |
DigitalAssets |
String | Värdet kan vara ett av noSelection, ja, nej eller multiSelection. | ja |
DigitalAssetsDetails |
objekt | Ett objekt som innehåller information om de digitala tillgångarna. | |
ClaimStatus |
String | Värdet kan vara ett av noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien eller multiSelection. | taxpayerAsDependent |
ClaimStatusDetails |
objekt | Ett objekt som innehåller information om anspråksstatusen. | |
TaxpayerAgeBlindness |
String | Värdet kan vara ett av noSelection, above64 , blind eller multiSelection. |
över 64 |
TaxPayerAgeBlindnessDetails |
objekt | Ett objekt som innehåller information om skattebetalarnas åldersblindhet. | |
SpouseAgeBlindness |
String | Värdet kan vara ett av noSelection, above64 , blind eller multiSelection. |
över 64 |
TaxPayerAgeBlindnessDetails |
objekt | Ett objekt som innehåller information om makens åldersblindhet. | |
MoreThanFourDependents |
boolean | Fler än fyra beroenden som extraherats från formulär 1040. | true |
Box1a |
Nummer | Box 1a extraherad från 1040. |
123456 |
Resultatet baseras på den angivna JSON-strukturen och konverterar den till samma tabellformat som begärt: | |||
Box1b |
Nummer | Box 1b extraherad från 1040. |
123456 |
Box1c |
Nummer | Box 1c extraherad från 1040. |
123456 |
Box1d |
Nummer | Box 1d extraherad från 1040. |
123456 |
Box1e |
Nummer | Box 1e extraherad från 1040. |
123456 |
Box1f |
Nummer | Box 1f extraherad från 1040. |
123456 |
Box1g |
Nummer | Box 1g extraherad från 1040. |
123456 |
Box1h |
Nummer | Box 1h extraherad från 1040. |
123456 |
Box1i |
Nummer | Box 1i extraherad från 1040. |
123456 |
Box1z |
Nummer | Box 1z extraherad från 1040. |
123456 |
Box2a |
Nummer | Box 2a extraherad från 1040. |
123456 |
Box2b |
Nummer | Box 2b extraherad från 1040. |
123456 |
Box3a |
Nummer | Box 3a extraherad från 1040. |
123456 |
Box3b |
Nummer | Box 3b extraherad från 1040. |
123456 |
Box4a |
Nummer | Box 4a extraherad från 1040. |
123456 |
Box4b |
Nummer | Box 4b extraherad från 1040. |
123456 |
Box5a |
Nummer | Box 5a extraherad från 1040. |
123456 |
Box5b |
Nummer | Box 5b extraherad från 1040. |
123456 |
Box6a |
Nummer | Box 6a extraherad från 1040. |
123456 |
Box6b |
Nummer | Box 6b extraherad från 1040. |
123456 |
Box6cCheckbox |
boolean | Kryssruta 6c som extraherats från 1040. |
true |
Box7Checkbox |
boolean | Kryssruta 7 extraherad från 1040. | true |
Box7 |
Nummer | Ruta 7 extraherad från 1040. | 123456 |
Box8 |
Nummer | Ruta 8 extraherad från 1040. | 123456 |
Box9 |
Nummer | Ruta 9 extraherad från 1040. | 123456 |
Box10 |
Nummer | Ruta 10 extraherad från 1040. | 123456 |
Box11 |
Nummer | Box 11 extraherad från 1040. | 123456 |
Box12 |
Nummer | Ruta 12 extraherad från 1040. | 123456 |
Box13 |
Nummer | Box 13 extraherad från 1040. | 123456 |
Box14 |
Nummer | Ruta 14 extraherad från 1040. | 123456 |
Box15 |
Nummer | Box 15 extraherad från 1040. | 123456 |
Box16FromForm |
sträng | Värdet kan vara ett av noSelection, 8814, 4972, annat eller multiSelection. | 8814 |
Box16FromFormDetails |
objekt | Objekt som innehåller information om Box 16 | |
Box16OtherFormNumber |
sträng | Ruta 16 Annat formulärnummer extraherat från 1040. | 8888 |
Box16 |
Nummer | Box 16 extraherad från 1040. | 123456 |
Box17 |
Nummer | Box 17 extraherad från 1040. | 123456 |
Box18 |
Nummer | Box 18 extraherad från 1040. | 123456 |
Box19 |
Nummer | Ruta 19 extraherad från 1040. | 123456 |
Box20 |
Nummer | Box 20 extraherad från 1040. | 123456 |
Box21 |
Nummer | Ruta 21 extraherad från 1040. | 123456 |
Box22 |
Nummer | Box 22 extraherad från 1040. | 123456 |
Box23 |
Nummer | Ruta 23 extraherad från 1040. | 123456 |
Box24 |
Nummer | Box 24 extraherad från 1040. | 123456 |
Box25a |
Nummer | Box 25a extraherad från 1040. |
123456 |
Box25b |
Nummer | Box 25b extraherad från 1040. |
123456 |
Box25c |
Nummer | Box 25c extraherad från 1040. |
123456 |
Box25d |
Nummer | Box 25d extraherad från 1040. |
123456 |
Box26 |
Nummer | Box 26 extraherad från 1040. | 123456 |
Box27 |
Nummer | Box 27 extraherad från 1040. | 123456 |
Box28 |
Nummer | Box 28 extraherad från 1040. | 123456 |
Box29 |
Nummer | Box 29 extraherad från 1040. | 123456 |
Box31 |
Nummer | Box 31 extraherad från 1040. | 123456 |
Box32 |
Nummer | Box 32 extraherad från 1040. | 123456 |
Box33 |
Nummer | Ruta 33 extraherad från 1040. | 123456 |
Box34 |
Nummer | Ruta 34 extraherad från 1040. | 123456 |
Box35Checkbox |
boolean | Kryssruta 35 extraherad från 1040. | true |
Box35a |
Nummer | Box 35a extraherad från 1040. |
123456 |
Box35b |
Nummer | Box 35b extraherad från 1040. |
123456 |
Box35c |
sträng | Värdet kan vara ett av noSelection, check, savings eller multiSelection. | Kontrollera |
Box35cDetails |
objekt | Objekt som innehåller information om Box 35c |
|
Box35d |
Nummer | Box 35d extraherad från 1040. |
123456 |
Box36 |
Nummer | Box 36 extraherad från 1040. | 123456 |
Box37 |
Nummer | Box 37 extraherad från 1040. | 123456 |
Box38 |
Nummer | Box 38 extraherad från 1040. | 123456 |
HasAssignedThirdPartyDesignee |
sträng | Värdet kan vara ett av noSelection, ja, nej eller multiSelection. | ja |
HasAssignedThirdPartyDesigneeDetails |
objekt | Objekt som innehåller information om vad som har valts för den tilldelade designobjektet från tredje part |
Nyckel/värde-par och radobjekt som extraheras finns i avsnittet i documentResults
JSON-utdata.
Nästa steg
Prova att bearbeta dina egna formulär och dokument med Document Intelligence Studio.
Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för