Modely daňových dokumentů Document Intelligence v USA

Důležité

  • Verze Document Intelligence ve verzi Public Preview poskytují dřívější přístup k funkcím, které jsou aktivní ve vývoji.
  • Funkce, přístupy a procesy se můžou před obecnou dostupností (GA) změnit na základě zpětné vazby uživatelů.
  • Verze Public Preview klientských knihoven Document Intelligence ve výchozím nastavení je rest API verze 2024-02-29-preview.
  • Verze Public Preview 2024-02-29-preview je aktuálně dostupná jenom v následujících oblastech Azure:
  • USA – východ
  • USA – západ 2
  • Západní Evropa

Tento obsah se vztahuje na:Zaškrtnutív4.0 (Preview) | Předchozí verze:modrá značka zaškrtnutív3.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutív3.1 (GA) | Nejnovější verze:nachová značka zaškrtnutív4.0 (Preview)

Model kontraktů Document Intelligence používá výkonné funkce optického rozpoznávání znaků (OCR) k analýze a extrakci klíčových polí a řádkových položek z vybrané skupiny daňových dokladů. Daňové dokumenty můžou mít různé formáty a kvalitu, včetně obrázků zachycených telefonem, naskenovaných dokumentů a digitálních souborů PDF. Rozhraní API analyzuje text dokumentu; extrahuje klíčové informace, jako je jméno zákazníka, fakturační adresa, termín splatnosti a splatnost částky; a vrátí strukturovanou reprezentaci dat JSON. Model v současné době podporuje určité formáty anglického daňového dokladu.

Podporované typy dokumentů:

  • Daňové přiznání
  • 1098
  • 1098-E
  • 1098-T
  • 1099 a variace (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 a varianty (Plán 1, Plán 2, Plán 3, Plán 8812, Plán A, Plán B, Plán C, Plán D, Plán E, Plán EICF, Plán H, Plán J, Plán R, Plán SE a Plán Vedoucí)

Automatizované zpracování daňových dokumentů

Automatizované zpracování daňových dokladů je proces extrakce klíčových polí z daňových dokladů. V minulosti byly daňové doklady zpracovány ručně. Tento model umožňuje snadnou automatizaci daňových scénářů.

Možnosti vývoje

Document Intelligence v4.0 (2023-10-31-preview) podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Modely daňových formulářů USA Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
• předem připravená verze-tax.us.W-2
• předem připravená verze-tax.us.1098
• předem připravená-tax.us.1098E
• předem připravená verze-tax.us.1098T
• předem připravenát-tax.us.1099A
• předem připravená verze-tax.us.1099B
• předem připravená-tax.us.1099C
• předem připravená-tax.us.1099CAP
• předem připravená prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuil tax.us.1099K
• předem připravená-tax.us.1099LS
• předem připravená-tax.us.1099LTC
• předem připravená-tax.us.1099MISC
• prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• předem připravená-tax.us.1099QA
• předem připravená-tax.us.1099R
• předem připravená verze-tax.us.1099S• předem připravená-tax.us.1099S
• předem připravená-tax.us.1 1099SA
• předem připravená-tax.us.1099SB
• předem připravená verze-tax.us.1040
• předem připravená-tax.us.1040Schedule1
• předem připravená tax.us.1040Schedule2
• předem připravený-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812

prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• předembuilt-tax.us.1040ScheduleD
• předem připravený-tax.us.1040ScheduleE
• předem připravený-tax.us.1040ScheduleEIC
• předem sestavený-tax.us.1040ScheduleF
• předem připravený-tax.us.1040ScheduleH
• předem připravený-tax.us.1040ScheduleJ
• předem připravená-tax.us.1040ScheduleR
• předem připravená-tax.us.1040ScheduleSE
• předem připravená-tax.us.1040Senior

Document Intelligence v3.1 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Modely daňových formulářů USA Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
• předem připravená verze-tax.us.W-2
• předem připravená-tax.us.1098
• předem připravená-tax.us.1098E
• předem připravená-tax.us.1098T

Document Intelligence v3.0 podporuje následující nástroje, aplikace a knihovny:

Funkce Zdroje informací ID modelu
Modely daňových formulářů USA Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
• JavaScript SDK• JavaScript SDK
• předem připravená verze-tax.us.W-2
• předem připravená-tax.us.1098
• předem připravená-tax.us.1098E
• předem připravená-tax.us.1098T

Požadavky na vstup

  • Nejlepšíchvýsledkůch

  • Podporované formáty souborů:

    Model PDF Obrázek:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    systém Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) a HTML
    Čteno
    Rozložení ✔ (2024-02-29-preview, 2023-10-31-preview)
    Obecný dokument
    Předpřipravený
    Vlastní extrakce
    Vlastní klasifikace ✔ (29. 2024. 2024)
  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2000 stránek (s předplatným úrovně Free se zpracovávají pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8150 bodům na palec (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

    • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

    • Pro trénování modelu vlastní klasifikace je 1GB celková velikost trénovacích dat s maximálně 10 000 stránkami.

Vyzkoušení extrakce údajů o daňových dokladech

Podívejte se, jak se data, včetně informací o zákaznících, podrobností o dodavateli a řádkových položek, extrahují z faktur. Potřebujete následující zdroje informací:

  • Předplatné Azure – můžete si ho zdarma vytvořit.

  • Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (F0). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.

Snímek obrazovky s klíči a umístěním koncového bodu na webu Azure Portal

Document Intelligence Studio

  1. Na domovské stránce nástroje Document Intelligence Studio vyberte podporovaný model daňového dokladu.

  2. Můžete analyzovat ukázkový daňový doklad nebo nahrát vlastní soubory.

  3. Vyberte tlačítko Spustit analýzu a v případě potřeby nakonfigurujte možnosti Analyzovat:

    Snímek obrazovky s tlačítky Možnosti Spustit analýzu a Analýza v nástroji Document Intelligence Studio

Podporované jazyky a národní prostředí

Úplný seznam podporovaných jazyků najdete na stránce podpory jazyků – předem připravená stránka modelů .

Extrakce polí W-2

Následuje pole extrahovaná z daňového formuláře W-2 ve výstupní odpovědi JSON.

Name Typ Popis Příklad výstupu Rodinných příslušníků
W-2FormVariant String Varianta formuláře IR W-2 Toto pole může mít jednu z následujících hodnot: W-2, W-2AS, W-2CM, W-2GU, nebo W-2VI Daňové přiznání
TaxYear Počet Daňový rok formuláře 2021
W2Copy String Verze daňového kopírování W-2 spolu s tištěnými instrukcemi souvisejícími s touto kopií Kopírování A – pro Správa sociálního zabezpečení
Employee objekt Objekt, který obsahuje číslo sociálního pojištění, jméno a adresu
ControlNumber string Ovládací číslo W-2. Pole IRS W-2 d 0AB12 D345 7890
Employer Object Předmět obsahující identifikační číslo, jméno a adresu zaměstnavatele
WagesTipsAndOtherCompensation Počet Mzdy, tipy a další kompenzace v USD. Pole IRS W-2 1 1234567.89
FederalIncomeTaxWithheld Počet Federální daň z příjmu sdružená částka v USD. IRS W-2 pole 2 1234567.89
SocialSecurityWages Počet Mzdy sociálního pojištění v USD. IrS W-2 pole 3 1234567.89
SocialSecurityTaxWithheld Počet Daň z sociálního pojištění sražená v USD. IrS W-2 pole 4 1234567.89
MedicareWagesAndTips Počet Medicare mzdy a tipy částky v USD. Pole IRS W-2 5 1234567.89
MedicareTaxWithheld Počet Daň medicare sdružená částka v USD. IrS W-2 pole 6 1234567.89
SocialSecurityTips Počet Částka sociálních zabezpečení v USD. IRS W-2 pole 7 1234567.89
AllocatedTips Počet Přidělené tipy v USD. IrS W-2 pole 8 1234567.89
VerificationCode Počet Ověřovací kód W-2 IrS W-2 pole 9 1234567.89
DependentCareBenefits Počet Částka dávek závislé péče v USD. Pole IRS W-2 10 1234567.89
NonQualifiedPlans Počet Nevalifikovaná částka plánů v USD. IRS W-2 pole 11 1234567.89
IsStatutoryEmployee String Část pole 13 IRS W-2 Může to být pravda nebo nepravda. true
IsRetirementPlan String Část pole 13 IRS W-2 Může to být pravda nebo nepravda. true
IsThirdPartySickPay String Část pole 13 IRS W-2 Může to být pravda nebo nepravda. true
Other String Obsah pole W-2 IRS 14 NEMOC LV MZDY SBJT NA $511/DEN LIMIT 1356
StateTaxInfos Pole Informace týkající se daně státu. obsah irs W-2 pole 15 až 17
LocaleTaxInfos Pole Místní daňové údaje. Obsah pole IRS W-2 18 až 20

Extrakce polí 1098

Následuje pole extrahovaná z daňového formuláře 1098 ve výstupní odpovědi JSON. Podporují se také formuláře 1098-T a 1098-E.

Name Typ Popis Příklad výstupu
TaxYear Počet Daňový rok formuláře 2021
Dlužník Object Objekt, který obsahuje TIN, Jméno, Adresu a AccountNumber dlužníka
Věřitele Object Objekt, který obsahuje TIN, jméno, adresu a telefon věřitele
HypotékaInterest Počet Částka úroku hypotéky získaná od plátců/dlužníků (box 1) 1,234,567.89
OutstandingMortgagePrincipal Počet Nevyrovnaná hypotéka (box 2) 1,234,567.89
HypotékaOriginationDate Datum Datum vzniku hypotéky (box 3) 2022-01-01
OverpaidInterestRefund Počet Částka přeplaceného úroku (box 4) 1,234,567.89
HypotékaPremium Počet Částka pojistného na hypotéku (box 5) 1,234,567.89
PointsPaid Počet Body zaplacené při nákupu hlavního bydliště (Box 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String Je adresa nemovitosti zabezpečující hypotéku stejná jako poštovní adresa plátce/dlužníka (box 7). true
PropertyAddress String Adresa nebo popis nemovitosti zabezpečování hypotéky (box 8) 123 Main St., Redmond WA 98052
HypotékaPropertiesCount Počet Počet nemovitostí s hypotékou (box 9) 0
Jiný důvod String Další informace k hlášení plátci (box 10)
RealEstateTax Počet Daň z nemovitostí (box 1) 1,234,567.89
AdditionalAssessment String Přidání posouzení provedených ve vlastnosti (10 pole 10) 1,234,567.89
HypotékaAcquisitionDate datum Datum pořízení hypotéky (box 11) 2022-01-01

Extrakce polí 1099-NEC

Následuje pole extrahovaná z daňového formuláře 1099-nec ve výstupní odpovědi JSON. Podporují se také další varianty 1099.

Name Typ Popis Příklad výstupu
TaxYear String Daňový rok extrahovaný z formuláře 1099-NEC. 2021
Payer Object Objekt, který obsahuje TIN, Jméno, Adresu a Telefon Číslo plátce
Recipient Object Objekt, který obsahuje TIN, jméno, adresu a číslo účtu příjemce
Box1 Číslo Krabice 1 extrahovaná z formuláře 1099-NEC. 123456
Box2 boolean Rámeček 2 extrahovaný z formuláře 1099-NEC. true
Box4 Číslo Krabice 4 extrahovaná z formuláře 1099-NEC. 123456
StateTaxesWithheld pole Státní daně sražené z formuláře 1099-NEC (kolonky 5, 6 a 7)

Extrahování polí 1040 daňový formulář

Následuje pole extrahovaná z daňového formuláře 1040 ve výstupní odpovědi JSON. Podporují se také další varianty 1040.

Name Typ Popis Příklad výstupu
TaxPayer Object Objekt obsahující informace daňového poplatníka, jako je SSN, Příjmení a Adresa
Spouse Object Objekt, který obsahuje informace o manželovi, jako je SSN, příjmení a jméno a iniciály Jméno
Dependents pole Pole, které obsahuje seznam závislých položek, včetně informací, jako je Název, SSN a Typ kreditu
ThirdPartyDesignee objekt Objekt obsahující informace o návrhu třetí strany
SignatureDetails objekt Objekt, který obsahuje informace o znaménku, jako jsou telefonní čísla a e-maily
PaidPreparer objekt Objekt, který obsahuje informace o přípravě.
FillingStatus String Hodnota může být jedna z noSelection, single, ženatýFilingJointly, ženatýFillingSeparately, headOfHousehold, kvalifikaceSurvivingSpouse nebo multiSelection. single
FilingStatusDetails objekt Objekt, který obsahuje informace o stavu zápisu.
NameOfSpouseOrQualifyingPerson String Jméno manžela nebo oprávněné osoby extrahované z formuláře 1040. John Smith
PresidentialElectionCampaign String Hodnota může být jedna z možností noSelection, daňový poplatník, manžel nebo multiSelection. Daňových poplatníků
PresidentialElectionCampaignDetails objekt Objekt, který obsahuje podrobnosti o prezidentské volební kampaně.
DigitalAssets String Hodnota může být jedna z noSelection, ano, ne nebo multiSelection. ano
DigitalAssetsDetails objekt Objekt, který obsahuje podrobnosti o digitálních prostředcích.
ClaimStatus String Hodnota může být jedna z noSelection, daňový poplatníkAsDependent, manželkaAsDependent, manželkaItemizesSeparatelyOrDualStatusAlien nebo multiSelection. daňový poplatníkAsDependent
ClaimStatusDetails objekt Objekt, který obsahuje podrobnosti o stavu deklarace identity.
TaxpayerAgeBlindness String Hodnota může být jedna z možností noSelection, above64, blind nebo multiSelection. nad 64
TaxPayerAgeBlindnessDetails objekt Objekt, který obsahuje podrobnosti o nevidomosti daňového poplatníka.
SpouseAgeBlindness String Hodnota může být jedna z možností noSelection, above64, blind nebo multiSelection. nad 64
TaxPayerAgeBlindnessDetails objekt Objekt, který obsahuje podrobnosti o věku manžela nevidomosti.
MoreThanFourDependents boolean Více než čtyři závislé položky extrahované z formuláře 1040. true
Box1a Číslo Krabice 1a extrahovaná z 1040. 123456
Výsledek je založený na zadané struktuře JSON a jeho převodu do stejného formátu tabulky jako požadovaný výsledek:
Box1b Číslo Krabice 1b extrahovaná z 1040. 123456
Box1c Číslo Krabice 1c extrahovaná z 1040. 123456
Box1d Číslo Krabice 1d extrahovaná z 1040. 123456
Box1e Číslo Krabice 1e extrahovaná z 1040. 123456
Box1f Číslo Krabice 1f extrahovaná z 1040. 123456
Box1g Číslo Krabice 1g extrahovaná z 1040. 123456
Box1h Číslo Krabice 1h extrahovaná z 1040. 123456
Box1i Číslo Krabice 1i extrahovaná z 1040. 123456
Box1z Číslo Krabice 1z extrahovaná z 1040. 123456
Box2a Číslo Krabice 2a extrahovaná z 1040. 123456
Box2b Číslo Krabice 2b extrahovaná z 1040. 123456
Box3a Číslo Krabice 3a extrahovaná z 1040. 123456
Box3b Číslo Krabice 3b extrahovaná z 1040. 123456
Box4a Číslo Krabice 4a extrahovaná z 1040. 123456
Box4b Číslo Krabice 4b extrahovaná z 1040. 123456
Box5a Číslo Krabice 5a extrahovaná z 1040. 123456
Box5b Číslo Krabice 5b extrahovaná z 1040. 123456
Box6a Číslo Krabice 6a extrahovaná z 1040. 123456
Box6b Číslo Krabice 6b extrahovaná z 1040. 123456
Box6cCheckbox boolean Zaškrtávací políčko 6c extrahované z 1040 true
Box7Checkbox boolean Zaškrtávací políčko 7 extrahované z 1040 true
Box7 Číslo Krabice 7 extrahovaná z 1040. 123456
Box8 Číslo Krabice 8 extrahovaná z 1040. 123456
Box9 Číslo Krabice 9 extrahovaná z 1040. 123456
Box10 Číslo Krabice 10 extrahovaná z 1040. 123456
Box11 Číslo Krabice 11 extrahovaná z 1040. 123456
Box12 Číslo Krabice 12 extrahovaná z 1040. 123456
Box13 Číslo Krabice 13 extrahovaná z 1040. 123456
Box14 Číslo Krabice 14 extrahovaná z 1040. 123456
Box15 Číslo Krabice 15 extrahovaná z 1040. 123456
Box16FromForm string Hodnota může být jedna z noSelection, 8814, 4972, jiné nebo vícenásobný výběr. 8814
Box16FromFormDetails objekt Objekt, který obsahuje podrobnosti o boxu 16
Box16OtherFormNumber string Rámeček 16 Jiné číslo formuláře extrahované z čísla 1040. 8888
Box16 Číslo Krabice 16 extrahovaná z 1040. 123456
Box17 Číslo Krabice 17 extrahovaná z 1040. 123456
Box18 Číslo Krabice 18 extrahovaná z 1040. 123456
Box19 Číslo Krabice 19 extrahovaná z 1040. 123456
Box20 Číslo Krabicový 20 extrahovaný z 1040. 123456
Box21 Číslo Krabice 21 extrahovaná z 1040. 123456
Box22 Číslo Krabice 22 extrahovaná z 1040. 123456
Box23 Číslo Krabice 23 extrahovaná z 1040. 123456
Box24 Číslo Krabice 24 extrahovaná z 1040. 123456
Box25a Číslo Krabice 25a extrahovaná z 1040. 123456
Box25b Číslo Krabice 25b extrahovaná z 1040. 123456
Box25c Číslo Krabice 25c extrahovaná z 1040. 123456
Box25d Číslo Krabice 25d extrahovaná z 1040. 123456
Box26 Číslo Krabice 26 extrahovaná z 1040. 123456
Box27 Číslo Krabice 27 extrahovaná z 1040. 123456
Box28 Číslo Krabice 28 extrahovaná z 1040. 123456
Box29 Číslo Krabice 29 extrahovaná z 1040. 123456
Box31 Číslo Krabice 31 extrahovaná z 1040. 123456
Box32 Číslo Krabice 32 extrahovaná z 1040. 123456
Box33 Číslo Krabice 33 extrahovaná z 1040. 123456
Box34 Číslo Krabice 34 extrahovaná z 1040. 123456
Box35Checkbox boolean Zaškrtávací políčko 35 extrahované z 1040 true
Box35a Číslo Krabice 35a extrahovaná z 1040. 123456
Box35b Číslo Krabice 35b extrahovaná z 1040. 123456
Box35c string Hodnota může být jedna z možností noSelection, kontrola, úspory nebo multiSelection. kontrola
Box35cDetails objekt Objekt obsahující podrobnosti o boxu 35c
Box35d Číslo Krabice 35d extrahovaná z 1040. 123456
Box36 Číslo Krabice 36 extrahovaná z 1040. 123456
Box37 Číslo Krabice 37 extrahovaná z 1040. 123456
Box38 Číslo Krabice 38 extrahovaná z 1040. 123456
HasAssignedThirdPartyDesignee string Hodnota může být jedna z noSelection, ano, ne nebo multiSelection. ano
HasAssignedThirdPartyDesigneeDetails objekt Objekt, který obsahuje informace o tom, co bylo vybráno pro přiřazený návrh třetí strany

Páry klíč-hodnota daňových dokladů a extrahované řádkové položky jsou v documentResults části výstupu JSON.

Další kroky