共用方式為


文件智慧服務美國稅務文件模型

重要

  • 文件智慧服務公開預覽版本可供您搶先試用在開發期間的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:勾選記號 v4.0 (預覽版) | 舊版: blue-checkmark v3.1 (GA)

此內容適用於: 勾選記號 v3.1 (GA) | 最新版本: 紫色-核取記號 v4.0 (預覽版)

Document Intelligence 合約模型會使用功能強大的光學字元辨識 (OCR) 功能,從選取的稅務文件群組中分析和擷取重要欄位和明細項目。 稅務文件的格式與品質有各種類型,包括手機擷取的影像、掃描的文件以及數位 PDF。 API 會分析文件文字,擷取如客戶名稱、帳單地址、到期日和到期金額等重要資訊,並傳回結構化 JSON 資料表示。 此模型目前支援特定的英文稅務文件格式。

支援的文件類型:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 和變化型 (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB)
  • 1040 和變化型 (排程 1、排程 2、排程 3、排程 8812、排程 A、排程 B、排程 C、排程 D、排程 E、排程 EIC、排程 F、排程 H、排程 J、排程 R、排程 SE 和排程資深)

自動化稅務文件處理

自動化稅務文件處理是從稅務文件中擷取重要欄位的流程。 在過去,稅賦文件為手動處理。 此模型可讓稅賦案例輕鬆自動化。

開發選項

文件智慧服務 v4.0 (2023-10-31-preview) 支援以下工具、應用程式和程式庫:

功能 資源 Model ID
美國稅務表單模型 文件智慧服務工作室
REST API
C# SDK
Python SDK
JAVA SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

文件智慧服務 v3.1 支援下列工具、應用程式和程式庫:

功能 資源 Model ID
美國稅務表單模型 文件智慧服務工作室
REST API
C# SDK
Python SDK
JAVA SDK
JavaScript SDK
prebuilt-tax.us.W-2
prebuilt-tax.us.1098
prebuilt-tax.us.1098E
prebuilt-tax.us.1098T

文件智慧服務 v3.0 支援下列工具、應用程式和程式庫:

功能 資源 Model ID
美國稅務表單模型 文件智慧服務工作室
REST API
C# SDK
Python SDK
JAVA SDK
JavaScript SDK
prebuilt-tax.us.W-2
prebuilt-tax.us.1098
prebuilt-tax.us.1098E
prebuilt-tax.us.1098T

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 影像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    參閱
    版面配置 ✔ (2024-02-29-preview、2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件付費 (S0) 階層的檔案大小為 500 MB,而免費 (F0) 階層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

嘗試稅務文件資料擷取

了解如何從發票擷取資料,包括客戶資訊、廠商詳細資料與明細項目。 您需要下列資源:

Azure 入口網站中金鑰與端點位置的螢幕擷取畫面。

Document Intelligence Studio

  1. 文件智慧服務工作室首頁上,選取 支持的稅務文件模型。

  2. 您可以分析範例稅務文件,或上傳您自己的檔案。

  3. 選取 [執行分析] 按鈕,並視需要設定 [分析選項]

    文件智慧服務工作室中 [執行分析] 和 [分析選項] 按鈕的螢幕擷取畫面。

支援的語言和地區設定

如需支援語言的完整清單,請參閱我們的 語言支援—預建模型頁面。

欄位擷取 W-2

以下是從 JSON 輸出回應中 W-2 稅務表單擷取的欄位。

名稱 類型​​ 描述 範例輸出 受撫養者
W-2FormVariant String IR W-2 表單變體。 此欄位可以具有下列其中一個值:W-2W-2ASW-2CMW-2GUW-2VI W-2
TaxYear 數字 表單稅務年度 2021
W2Copy String W-2 稅務複本版本,以及與此複本相關的列印指示 複本 A 適用於社會安全局
Employee object 包含社會安全號碼、姓名和地址的物件
ControlNumber 字串 W-2 控制編號。 IRS W-2 欄位 d 0AB12 D345 7890
Employer Object 包含雇主身分識別碼 (EIN)、姓名和地址的物件
WagesTipsAndOtherCompensation 數字 以美元為單位的薪資、小費和其他補償金額。 IRS W-2 欄位 1 1234567.89
FederalIncomeTaxWithheld 數字 以美元為單位的聯邦所得稅預扣金額。 IRS W-2 欄位 2 1234567.89
SocialSecurityWages 數字 以美元為單位的社會安全工資金額。 IRS W-2 欄位 3 1234567.89
SocialSecurityTaxWithheld 數字 以美元為單位的社會安全稅務預扣金額。 IRS W-2 欄位 4 1234567.89
MedicareWagesAndTips 數字 以美元為單位的醫療保險薪資金額。 IRS W-2 欄位 5 1234567.89
MedicareTaxWithheld 數字 以美元為單位的醫療稅務預扣金額。 IRS W-2 欄位 6 1234567.89
SocialSecurityTips 數字 以美元為單位的社會安全小費金額。 IRS W-2 欄位 7 1234567.89
AllocatedTips 數字 以美元為單位的劃分小費。 IRS W-2 欄位 8 1234567.89
VerificationCode 數字 W-2 驗證碼。 IRS W-2 欄位 9 1234567.89
DependentCareBenefits 數字 以美元為單位的受扶養人照護福利金額。 IRS W-2 欄位 10 1234567.89
NonQualifiedPlans 數字 以美元為單位的非限定方案金額。 IRS W-2 欄位 11 1234567.89
IsStatutoryEmployee String IRS W-2 欄位 13 的一部分。 可以是 true 或 false true
IsRetirementPlan String IRS W-2 欄位 13 的一部分。 可以是 true 或 false true
IsThirdPartySickPay String IRS W-2 欄位 13 的一部分。 可以是 true 或 false true
Other String IRS W-2 欄位 14 的內容 SICK LV WAGES SBJT TO $511/DAY LIMIT 1356
StateTaxInfos Array 州稅相關資訊。 IRS W-2 欄位 15 到 17 的內容
LocaleTaxInfos Array 當地稅相關資訊。 IRS W-2 欄位 18 到 20 的內容

欄位擷取 1098

以下是從 JSON 輸出回應中 1098 稅務表單擷取的欄位。 也支援 1098-T 和 1098-E 表單。

名稱 類型​​ 描述 範例輸出
TaxYear 數字 表單稅務年度 2021
借款人 Object 包含借款人 TIN、姓名、地址和 AccountNumber 的物件
放款人 Object 包含放款人 TIN、姓名、地址和電話的物件
抵押貸款利息 數字 向付款人/借款人收取的抵押貸款利息金額 (方塊 1) 1,234,567.89
OutstandingMortgagePrincipal 數字 未償還抵押貸款本金 (方塊 2) 1,234,567.89
MortgageOriginationDate Date 抵押貸款的起始日期 (方塊 3) 2022 年 1 月 1 日
OverpaidInterestRefund 數字 溢付利息的退還金額 (方塊 4) 1,234,567.89
MortgageInsurancePremium 數字 抵押保險保費金額 (方塊 5) 1,234,567.89
PointsPaid 數字 購買主要住宅時支付的積分 (方塊 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String 抵押財產的地址與付款人/借款人的郵寄地址是否相同 (方塊 7) true
PropertyAddress String 抵押財產的地址或描述 (方塊 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount 數字 抵押財產數量 (方塊 9) 1
其他 String 向付款人報告的額外資訊 (方塊 10)
RealEstateTax 數字 房地產稅 (方塊 1) 1,234,567.89
AdditionalAssessment String 加入對財產的評量 (方塊 10) 1,234,567.89
MortgageAcquisitionDate date 抵押貸款取得日期 (方塊 11) 2022 年 1 月 1 日

欄位擷取 1099-NEC

以下是從 JSON 輸出回應中 1099-NEC 稅務表單擷取的欄位。 也支援 1099 的其他變化型。

名稱 類型​​ 描述 範例輸出
TaxYear String 從 1099-NEC 表單擷取的稅賦年度。 2021
Payer Object 包含放款人 TIN、姓名、地址和電話號碼的物件
Recipient Object 包含借款人 TIN、姓名、地址和帳號的物件
Box1 數值 從 1099-NEC 表單擷取的方塊 1。 123456
Box2 boolean 從 1099-NEC 表單擷取的方塊 2。 true
Box4 數值 從 1099-NEC 表單擷取的方塊 4。 123456
StateTaxesWithheld 陣列 從 1099-NEC (方塊 5、6 和 7) 擷取的國家稅賦扣繳

欄位擷取 1040 稅務表單

以下是從 JSON 輸出回應中 1040 稅務表單擷取的欄位。 也支援 1040 的其他變化型。

名稱 類型​​ 描述 範例輸出
TaxPayer Object 包含納稅人資訊 (例如:社會安全號碼、姓氏、位址) 的物件
Spouse Object 包含配偶的資訊 (例如:社會安全號碼、姓氏、名字和名字縮寫) 的物件
Dependents 陣列 包含受撫養者清單 (包括名稱、社會安全號碼、信用類型等資訊) 的陣列
ThirdPartyDesignee object 包含第三方被指派者相關資訊的物件
SignatureDetails object 包含有關簽署者的資訊 (例如電話號碼和電子郵件) 的物件
PaidPreparer object 包含準備者相關資訊的物件。
FillingStatus String 值可以是以下任一個:noSelection、single、marriedFilingJointly、marriedFillingSeparately、headOfHousehold、qualifyingSurvivingSpouse multiSelection。 single
FilingStatusDetails object 包含提申狀態相關資訊的物件。
NameOfSpouseOrQualifyingPerson String 從 1040 表單擷取的配偶或合格人員名稱。 John Smith
PresidentialElectionCampaign String 值可以是 noSelection、納稅人、配偶或 multiSelection 之一。 納稅人
PresidentialElectionCampaignDetails object 包含關於總統競選活動詳細資料的物件。
DigitalAssets String 值可以是以下任一個:noSelection、yes、no、multiSelection。
DigitalAssetsDetails object 包含關於數位資產詳細資料的物件。
ClaimStatus String Value 可以是以下任一個:noSelection、taxpayerAsDependent、spouseAsDependent、spouseItemizesSeparatelyOrDualStatusAlien、multiSelection。 taxpayerAsDependent
ClaimStatusDetails object 包含關於索賠狀態詳細資料的物件。
TaxpayerAgeBlindness String 值可以是以下任一個:noSelection、above64、multiSelection。 above64
TaxPayerAgeBlindnessDetails object 包含關於納稅人年齡失明的詳細資料的物件。
SpouseAgeBlindness String 值可以是以下任一個:noSelection、above64、multiSelection。 above64
TaxPayerAgeBlindnessDetails object 包含關於配偶年齡失明的詳細資料的物件。
MoreThanFourDependents boolean 從 1040 表單擷取的四個以上的受撫養者。 true
Box1a 數值 從 1040 擷取的方塊 1a 123456
根據提供的 JSON 結構,並將它轉換成與要求相同的資料表格式,結果如下所示:
Box1b 數值 從 1040 擷取的方塊 1b 123456
Box1c 數值 從 1040 擷取的方塊 1c 123456
Box1d 數值 從 1040 擷取的方塊 1d 123456
Box1e 數值 從 1040 擷取的方塊 1e 123456
Box1f 數值 從 1040 擷取的方塊 1f 123456
Box1g 數值 從 1040 擷取的方塊 1g 123456
Box1h 數值 從 1040 擷取的方塊 1h 123456
Box1i 數值 從 1040 擷取的方塊 1i 123456
Box1z 數值 從 1040 擷取的方塊 1z 123456
Box2a 數值 從 1040 擷取的方塊 2a 123456
Box2b 數值 從 1040 擷取的方塊 2b 123456
Box3a 數值 從 1040 擷取的方塊 3a 123456
Box3b 數值 從 1040 擷取的方塊 3b 123456
Box4a 數值 從 1040 擷取的方塊 4a 123456
Box4b 數值 從 1040 擷取的方塊 4b 123456
Box5a 數值 從 1040 擷取的方塊 5a 123456
Box5b 數值 從 1040 擷取的方塊 5b 123456
Box6a 數值 從 1040 擷取的方塊 6a 123456
Box6b 數值 從 1040 擷取的方塊 6b 123456
Box6cCheckbox boolean 從 1040 擷取的方塊 6c 核取方塊。 true
Box7Checkbox boolean 從 1040 擷取的方塊 7 核取方塊。 true
Box7 數值 從 1040 擷取的方塊 7。 123456
Box8 數值 從 1040 擷取的方塊 8。 123456
Box9 數值 從 1040 擷取的方塊 9。 123456
Box10 數值 從 1040 擷取的方塊 10。 123456
Box11 數值 從 1040 擷取的方塊 11。 123456
Box12 數值 從 1040 擷取的方塊 12。 123456
Box13 數值 從 1040 擷取的方塊 13。 123456
Box14 數值 從 1040 擷取的方塊 14。 123456
Box15 數值 從 1040 擷取的方塊 15。 123456
Box16FromForm 字串 值可以是以下任一個:noSelection、8814、4972、其他或 multiSelection。 8814
Box16FromFormDetails object 包含關於方塊 16 詳細資料的物件
Box16OtherFormNumber 字串 從 1040 擷取的 方塊 16 其他表單號碼。 8888
Box16 數值 從 1040 擷取的方塊 16。 123456
Box17 數值 從 1040 擷取的方塊 17。 123456
Box18 數值 從 1040 擷取的方塊 18。 123456
Box19 數值 從 1040 擷取的方塊 19。 123456
Box20 數值 從 1040 擷取的方塊 20。 123456
Box21 數值 從 1040 擷取的方塊 21。 123456
Box22 數值 從 1040 擷取的方塊 22。 123456
Box23 數值 從 1040 擷取的方塊 23。 123456
Box24 數值 從 1040 擷取的方塊 24。 123456
Box25a 數值 從 1040 擷取的方塊 25a 123456
Box25b 數值 從 1040 擷取的方塊 25b 123456
Box25c 數值 從 1040 擷取的方塊 25c 123456
Box25d 數值 從 1040 擷取的方塊 25d 123456
Box26 數值 從 1040 擷取的方塊 26。 123456
Box27 數值 從 1040 擷取的方塊 27。 123456
Box28 數值 從 1040 擷取的方塊 28。 123456
Box29 數值 從 1040 擷取的方塊 29。 123456
Box31 數值 從 1040 擷取的方塊 31。 123456
Box32 數值 從 1040 擷取的方塊 32。 123456
Box33 數值 從 1040 擷取的方塊 33。 123456
Box34 數值 從 1040 擷取的方塊 34。 123456
Box35Checkbox boolean 從 1040 擷取的方塊 35 核取方塊。 true
Box35a 數值 從 1040 擷取的方塊 35a 123456
Box35b 數值 從 1040 擷取的方塊 35b 123456
Box35c 字串 值可以是以下任一個:noSelection、活存、儲蓄、或 multiSelection。 檢查
Box35cDetails object 包含關於方塊 35c 詳細資料的物件
Box35d 數值 從 1040 擷取的方塊 35d 123456
Box36 數值 從 1040 擷取的方塊 36。 123456
Box37 數值 從 1040 擷取的方塊 37。 123456
Box38 數值 從 1040 擷取的方塊 38。 123456
HasAssignedThirdPartyDesignee 字串 值可以是以下任一個:noSelection、yes、no、multiSelection。
HasAssignedThirdPartyDesigneeDetails object 包含已指派之第三方簽署者所選取項目相關資訊的物件

擷取的稅務文件機碼值組和明細項目位於 JSON 輸出的 documentResults 區段中。

下一步