檔智慧美國稅務檔模型
重要
- Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於:v4.0 (預覽) | 舊版:v3.1 (GA)
此內容適用於:v3.1 (GA) | 最新版本:v4.0 (預覽)
Document Intelligence 合約模型會使用功能強大的光學字元辨識 (OCR) 功能,從選取的稅務文件群組中分析和擷取重要欄位和明細項目。 稅務文件的格式與品質有各種類型,包括手機擷取的影像、掃描的文件以及數位 PDF。 API 會分析文件文字,擷取如客戶名稱、帳單地址、到期日和到期金額等重要資訊,並傳回結構化 JSON 資料表示。 此模型目前支援特定的英文稅務文件格式。
支援的文件類型:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 和變化(A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB)
- 1040 和變化(排程 1、排程 2、排程 3、排程 8812、排程 A、排程 B、排程 C、排程 D、排程 E
EIC
、排程、排程 、排程 F、排程 H、排程 J、排程 R、排程 SE 和排程資深)
自動化稅務文件處理
自動化稅務文件處理是從稅務文件中擷取重要欄位的流程。 在過去,稅務檔已手動處理。 此模型可讓您輕鬆自動化稅務案例。
開發選項
Document Intelligence v4.0 (2023-10-31-preview) 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務窗體模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098• prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • 預先建置t-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • 預先建置t-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • 預先建置t-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID• prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • 預先建置t-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC• prebuilt-tax.us.1040ScheduleEIC •built-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Document Intelligence v3.1 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務窗體模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Document Intelligence v3.0 支援下列工具、應用程式和連結庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務窗體模型 | • Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 圖片:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
嘗試稅務文件資料擷取
了解如何從發票擷取資料,包括客戶資訊、廠商詳細資料與明細項目。 您需要下列資源:
Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。
Document Intelligence Studio
在 Document Intelligence Studio 首頁上,選取支援的稅務檔模型。
您可以分析範例稅務檔,或上傳您自己的檔案。
選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項 :
支援的語言和地區設定
如需支援語言的完整清單,請參閱 我們的 語言支援 — 預先建置的模型 頁面。
欄位擷取 W-2
以下是從 JSON 輸出回應中 W-2 稅務表單擷取的欄位。
名稱 | 類型 | 描述 | 範例輸出 | 家屬 |
---|---|---|---|---|
W-2FormVariant |
String | IR W-2 表單變體。 此欄位可以具有下列其中一個值:W-2 、W-2AS 、W-2CM 、W-2GU 或 W-2VI |
W-2 | |
TaxYear |
數字 | 表單稅務年度 | 2021 | |
W2Copy |
String | W-2 稅務複本版本,以及與此複本相關的列印指示 | 複本 A 適用於社會安全局 | |
Employee |
object | 包含社會安全號碼、姓名和地址的物件 | ||
ControlNumber |
字串 | W-2 控制編號。 IRS W-2 欄位 d | 0AB12 D345 7890 | |
Employer |
Object | 物件,其中包含僱主標識碼、名稱和位址 | ||
WagesTipsAndOtherCompensation |
數字 | 以美元為單位的薪資、小費和其他補償金額。 IRS W-2 欄位 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
數字 | 以美元為單位的聯邦所得稅預扣金額。 IRS W-2 欄位 2 | 1234567.89 | |
SocialSecurityWages |
數字 | 以美元為單位的社會安全工資金額。 IRS W-2 欄位 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
數字 | 以美元為單位的社會安全稅務預扣金額。 IRS W-2 欄位 4 | 1234567.89 | |
MedicareWagesAndTips |
數字 | 以美元為單位的醫療保險薪資金額。 IRS W-2 欄位 5 | 1234567.89 | |
MedicareTaxWithheld |
數字 | 以美元為單位的醫療稅務預扣金額。 IRS W-2 欄位 6 | 1234567.89 | |
SocialSecurityTips |
數字 | 以美元為單位的社會安全小費金額。 IRS W-2 欄位 7 | 1234567.89 | |
AllocatedTips |
數字 | 以美元為單位的劃分小費。 IRS W-2 欄位 8 | 1234567.89 | |
VerificationCode |
數字 | W-2 驗證碼。 IRS W-2 欄位 9 | 1234567.89 | |
DependentCareBenefits |
數字 | 以美元為單位的受扶養人照護福利金額。 IRS W-2 欄位 10 | 1234567.89 | |
NonQualifiedPlans |
數字 | 以美元為單位的非限定方案金額。 IRS W-2 欄位 11 | 1234567.89 | |
IsStatutoryEmployee |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
IsRetirementPlan |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
IsThirdPartySickPay |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
Other |
String | IRS W-2 欄位 14 的內容 | SICK LV WAGES SBJT TO $511/DAY LIMIT 1356 | |
StateTaxInfos |
陣列 | 州稅相關資訊。 IRS W-2 欄位 15 到 17 的內容 | ||
LocaleTaxInfos |
陣列 | 當地稅相關資訊。 IRS W-2 欄位 18 到 20 的內容 |
欄位擷取 1098
以下是從 JSON 輸出回應中擷取自 1098 稅務表單的欄位。 也支援 1098-T 和 1098-E 表單。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxYear | 數字 | 表單稅務年度 | 2021 |
借款人 | Object | 包含借款人 TIN、姓名、地址和 AccountNumber 的物件 | |
放款人 | Object | 包含放款人 TIN、姓名、地址和電話的物件 | |
抵押貸款利息 | 數字 | 按揭利息金額從付款人/借款人(第1箱) | 1,234,567.89 |
OutstandingMortgagePrincipal | 數字 | 未償還抵押貸款本金 (方塊 2) | 1,234,567.89 |
MortgageOriginationDate | Date | 抵押貸款的起始日期 (方塊 3) | 2022 年 1 月 1 日 |
OverpaidInterestRefund | 數字 | 溢付利息的退還金額 (方塊 4) | 1,234,567.89 |
MortgageInsurancePremium | 數字 | 抵押保險保費金額 (方塊 5) | 1,234,567.89 |
PointsPaid | 數字 | 購買主要住宅時支付的積分 (方塊 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | String | 抵押財產的地址與付款人/借款人的郵寄地址是否相同 (方塊 7) | true |
PropertyAddress | String | 抵押財產的地址或描述 (方塊 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | 數字 | 抵押財產數量 (方塊 9) | 1 |
其他 | String | 向付款人報告的額外資訊 (方塊 10) | |
RealEstateTax | 數字 | 房地產稅 (方塊 1) | 1,234,567.89 |
AdditionalAssessment | String | 加入對財產的評量 (方塊 10) | 1,234,567.89 |
MortgageAcquisitionDate | date | 抵押貸款取得日期 (方塊 11) | 2022 年 1 月 1 日 |
欄位擷取 1099-NEC
以下是從 JSON 輸出回應中擷取自 1099-nec 稅務表單的欄位。 也支援 1099 的其他變化。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxYear |
String | 從 1099-NEC 表單擷取的稅務年度。 | 2021 |
Payer |
Object | 物件,其中包含付款者的 TIN、Name、Address 和 電話 Number | |
Recipient |
Object | 物件,其中包含收件者的 TIN、Name、Address 和 AccountNumber | |
Box1 |
數值 | 從表單 1099-NEC 擷取的方塊 1。 | 123456 |
Box2 |
boolean | 從表單 1099-NEC 擷取的方塊 2。 | true |
Box4 |
數值 | 從表單 1099-NEC 擷取的方塊 4。 | 123456 |
StateTaxesWithheld |
陣列 | 從1099-NEC(5、6和7方塊)提取的國稅扣繳 |
欄位擷取 1040 稅單
以下是從 JSON 輸出回應中擷取自 1040 稅務表單的欄位。 也支援 1040 的其他變化。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxPayer |
Object | 物件,其中包含納稅人的資訊,例如 SSN、姓氏和位址 | |
Spouse |
Object | 物件,其中包含配偶的資訊,例如 SSN、姓氏和名字和縮寫名稱 | |
Dependents |
陣列 | 數位列,包含相依項目清單,包括名稱、SSN 和信用類型等資訊 | |
ThirdPartyDesignee |
object | 物件,包含第三方被設計者的相關信息 | |
SignatureDetails |
object | 物件,其中包含有關被簽署者的資訊,例如電話號碼和電子郵件 | |
PaidPreparer |
object | 物件,包含準備者的相關信息。 | |
FillingStatus |
String | Value 可以是 noSelection、single、marriedFilingJointly、marriedFillingSeparately、headOfHousehold、qualifyingSurvivingSpouse 或 multiSelection 之一。 | single |
FilingStatusDetails |
object | 物件,其中包含檔案狀態的相關信息。 | |
NameOfSpouseOrQualifyingPerson |
String | 從表單 1040 擷取的配偶或合格人員名稱。 | John Smith |
PresidentialElectionCampaign |
String | 值可以是 noSelection、納稅人、配偶或 multiSelection 之一。 | 納稅人 |
PresidentialElectionCampaignDetails |
object | 物件,其中包含總統競選活動的詳細數據。 | |
DigitalAssets |
String | 值可以是 noSelection、yes、no 或 multiSelection 的其中一個。 | 是 |
DigitalAssetsDetails |
object | 物件,其中包含有關數位資產的詳細數據。 | |
ClaimStatus |
String | Value 可以是 noSelection、taxpayerAsDependent、spouseAsDependent、spouseItemizesSeparatelyOrDualStatusAlien 或 multiSelection 之一。 | taxpayerAsDependent |
ClaimStatusDetails |
object | 物件,包含宣告狀態的詳細數據。 | |
TaxpayerAgeBlindness |
String | 值可以是 noSelection、、 above64 blind 或 multiSelection 的其中一個。 |
高於 64 |
TaxPayerAgeBlindnessDetails |
object | 物件,包含納稅人年齡失明的詳細數據。 | |
SpouseAgeBlindness |
String | 值可以是 noSelection、、 above64 blind 或 multiSelection 的其中一個。 |
高於 64 |
TaxPayerAgeBlindnessDetails |
object | 物件,其中包含配偶年齡失明的詳細數據。 | |
MoreThanFourDependents |
boolean | 從表單 1040 擷取的四個以上的相依專案。 | true |
Box1a |
數值 | 從 1040 擷取的方塊 1a 。 |
123456 |
根據提供的 JSON 結構,並將它轉換成與要求相同的數據表格式,結果如下所示: | |||
Box1b |
數值 | 從 1040 擷取的方塊 1b 。 |
123456 |
Box1c |
數值 | 從 1040 擷取的方塊 1c 。 |
123456 |
Box1d |
數值 | 從 1040 擷取的方塊 1d 。 |
123456 |
Box1e |
數值 | 從 1040 擷取的方塊 1e 。 |
123456 |
Box1f |
數值 | 從 1040 擷取的方塊 1f 。 |
123456 |
Box1g |
數值 | 從 1040 擷取的方塊 1g 。 |
123456 |
Box1h |
數值 | 從 1040 擷取的方塊 1h 。 |
123456 |
Box1i |
數值 | 從 1040 擷取的方塊 1i 。 |
123456 |
Box1z |
數值 | 從 1040 擷取的方塊 1z 。 |
123456 |
Box2a |
數值 | 從 1040 擷取的方塊 2a 。 |
123456 |
Box2b |
數值 | 從 1040 擷取的方塊 2b 。 |
123456 |
Box3a |
數值 | 從 1040 擷取的方塊 3a 。 |
123456 |
Box3b |
數值 | 從 1040 擷取的方塊 3b 。 |
123456 |
Box4a |
數值 | 從 1040 擷取的方塊 4a 。 |
123456 |
Box4b |
數值 | 從 1040 擷取的方塊 4b 。 |
123456 |
Box5a |
數值 | 從 1040 擷取的方塊 5a 。 |
123456 |
Box5b |
數值 | 從 1040 擷取的方塊 5b 。 |
123456 |
Box6a |
數值 | 從 1040 擷取的方塊 6a 。 |
123456 |
Box6b |
數值 | 從 1040 擷取的方塊 6b 。 |
123456 |
Box6cCheckbox |
boolean | 從 1040 擷取的方 6c 塊複選框。 |
true |
Box7Checkbox |
boolean | 從 1040 擷取的方塊 7 複選框。 | true |
Box7 |
數值 | 從 1040 擷取的方塊 7。 | 123456 |
Box8 |
數值 | 從 1040 擷取的方塊 8。 | 123456 |
Box9 |
數值 | 從 1040 擷取的方塊 9。 | 123456 |
Box10 |
數值 | 從 1040 擷取的方塊 10。 | 123456 |
Box11 |
數值 | 從 1040 擷取的方塊 11。 | 123456 |
Box12 |
數值 | 從 1040 擷取的方塊 12。 | 123456 |
Box13 |
數值 | 從 1040 擷取的方塊 13。 | 123456 |
Box14 |
數值 | 從 1040 擷取的方塊 14。 | 123456 |
Box15 |
數值 | 從 1040 擷取的方塊 15。 | 123456 |
Box16FromForm |
字串 | 值可以是 noSelection、8814、4972 或 multiSelection 的其中一個。 | 8814 |
Box16FromFormDetails |
object | 物件,其中包含 Box 16 的詳細數據 | |
Box16OtherFormNumber |
字串 | 方塊 16 從 1040 擷取的其他窗體編號。 | 8888 |
Box16 |
數值 | 從 1040 擷取的方塊 16。 | 123456 |
Box17 |
數值 | 從 1040 擷取的方塊 17。 | 123456 |
Box18 |
數值 | 從 1040 擷取的方塊 18。 | 123456 |
Box19 |
數值 | 從 1040 擷取的方塊 19。 | 123456 |
Box20 |
數值 | 從 1040 擷取的 Box 20。 | 123456 |
Box21 |
數值 | 從 1040 擷取的方塊 21。 | 123456 |
Box22 |
數值 | 從 1040 擷取的方塊 22。 | 123456 |
Box23 |
數值 | 從 1040 擷取的方塊 23。 | 123456 |
Box24 |
數值 | 從 1040 擷取的方塊 24。 | 123456 |
Box25a |
數值 | 從 1040 擷取的方塊 25a 。 |
123456 |
Box25b |
數值 | 從 1040 擷取的方塊 25b 。 |
123456 |
Box25c |
數值 | 從 1040 擷取的方塊 25c 。 |
123456 |
Box25d |
數值 | 從 1040 擷取的方塊 25d 。 |
123456 |
Box26 |
數值 | 從 1040 擷取的 Box 26。 | 123456 |
Box27 |
數值 | 從 1040 擷取的 Box 27。 | 123456 |
Box28 |
數值 | 從 1040 擷取的方塊 28。 | 123456 |
Box29 |
數值 | 從 1040 擷取的方塊 29。 | 123456 |
Box31 |
數值 | 從 1040 擷取的方塊 31。 | 123456 |
Box32 |
數值 | 從 1040 擷取的 Box 32。 | 123456 |
Box33 |
數值 | 從 1040 擷取的方塊 33。 | 123456 |
Box34 |
數值 | 從 1040 擷取的方塊 34。 | 123456 |
Box35Checkbox |
boolean | 從 1040 擷取的方塊 35 複選框。 | true |
Box35a |
數值 | 從 1040 擷取的方塊 35a 。 |
123456 |
Box35b |
數值 | 從 1040 擷取的方塊 35b 。 |
123456 |
Box35c |
字串 | 值可以是 noSelection、checking、savings 或 multiSelection 之一。 | 檢查 |
Box35cDetails |
object | 物件,其中包含 Box 的詳細數據 35c |
|
Box35d |
數值 | 從 1040 擷取的方塊 35d 。 |
123456 |
Box36 |
數值 | 從 1040 擷取的 Box 36。 | 123456 |
Box37 |
數值 | 從 1040 擷取的方塊 37。 | 123456 |
Box38 |
數值 | 從 1040 擷取的方塊 38。 | 123456 |
HasAssignedThirdPartyDesignee |
字串 | 值可以是 noSelection、yes、no 或 multiSelection 的其中一個。 | 是 |
HasAssignedThirdPartyDesigneeDetails |
object | 物件,其中包含已指派之第三方被設計者所選取專案的相關信息 |
擷取的稅務文件機碼值組和明細項目位於 JSON 輸出的 documentResults
區段中。
下一步
嘗試使用 Document Intelligence Studio 處理您自己的表單和檔。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應