文件智慧服務美國稅務文件模型
重要
- 文件智慧服務公開預覽版本可供您搶先試用在開發期間的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於: v4.0 (預覽版) | 舊版: v3.1 (GA)
此內容適用於: v3.1 (GA) | 最新版本: v4.0 (預覽版)
Document Intelligence 合約模型會使用功能強大的光學字元辨識 (OCR) 功能,從選取的稅務文件群組中分析和擷取重要欄位和明細項目。 稅務文件的格式與品質有各種類型,包括手機擷取的影像、掃描的文件以及數位 PDF。 API 會分析文件文字,擷取如客戶名稱、帳單地址、到期日和到期金額等重要資訊,並傳回結構化 JSON 資料表示。 此模型目前支援特定的英文稅務文件格式。
支援的文件類型:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 和變化型 (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB)
- 1040 和變化型 (排程 1、排程 2、排程 3、排程 8812、排程 A、排程 B、排程 C、排程 D、排程 E、排程
EIC
、排程 F、排程 H、排程 J、排程 R、排程 SE 和排程資深)
自動化稅務文件處理
自動化稅務文件處理是從稅務文件中擷取重要欄位的流程。 在過去,稅賦文件為手動處理。 此模型可讓稅賦案例輕鬆自動化。
開發選項
文件智慧服務 v4.0 (2023-10-31-preview) 支援以下工具、應用程式和程式庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務表單模型 | • 文件智慧服務工作室 • REST API • C# SDK • Python SDK • JAVA SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
文件智慧服務 v3.1 支援下列工具、應用程式和程式庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務表單模型 | • 文件智慧服務工作室 • REST API • C# SDK • Python SDK • JAVA SDK • JavaScript SDK |
prebuilt-tax.us.W-2 prebuilt-tax.us.1098 prebuilt-tax.us.1098E prebuilt-tax.us.1098T |
文件智慧服務 v3.0 支援下列工具、應用程式和程式庫:
功能 | 資源 | Model ID |
---|---|---|
美國稅務表單模型 | • 文件智慧服務工作室 • REST API • C# SDK • Python SDK • JAVA SDK • JavaScript SDK |
prebuilt-tax.us.W-2 prebuilt-tax.us.1098 prebuilt-tax.us.1098E prebuilt-tax.us.1098T |
輸入需求
若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。
支援的檔案格式:
模型 PDF 影像:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML參閱 ✔ ✔ ✔ 版面配置 ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview) 一般文件 ✔ ✔ 預建 ✔ ✔ 自訂擷取 ✔ ✔ 自訂分類 ✔ ✔ ✔ (2024-02-29-preview) 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。
用於分析文件付費 (S0) 階層的檔案大小為 500 MB,而免費 (F0) 階層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於
8
點文字。針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。
針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。
針對自訂分類模型定型,定型資料的大小總計為
1GB
(上限為 10,000 頁)。
嘗試稅務文件資料擷取
了解如何從發票擷取資料,包括客戶資訊、廠商詳細資料與明細項目。 您需要下列資源:
Azure 訂用帳戶 - 您可免費建立一個訂用帳戶
Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (
F0
) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。
Document Intelligence Studio
在文件智慧服務工作室首頁上,選取 支持的稅務文件模型。
您可以分析範例稅務文件,或上傳您自己的檔案。
選取 [執行分析] 按鈕,並視需要設定 [分析選項]:
支援的語言和地區設定
如需支援語言的完整清單,請參閱我們的 語言支援—預建模型頁面。
欄位擷取 W-2
以下是從 JSON 輸出回應中 W-2 稅務表單擷取的欄位。
名稱 | 類型 | 描述 | 範例輸出 | 受撫養者 |
---|---|---|---|---|
W-2FormVariant |
String | IR W-2 表單變體。 此欄位可以具有下列其中一個值:W-2 、W-2AS 、W-2CM 、W-2GU 或 W-2VI |
W-2 | |
TaxYear |
數字 | 表單稅務年度 | 2021 | |
W2Copy |
String | W-2 稅務複本版本,以及與此複本相關的列印指示 | 複本 A 適用於社會安全局 | |
Employee |
object | 包含社會安全號碼、姓名和地址的物件 | ||
ControlNumber |
字串 | W-2 控制編號。 IRS W-2 欄位 d | 0AB12 D345 7890 | |
Employer |
Object | 包含雇主身分識別碼 (EIN)、姓名和地址的物件 | ||
WagesTipsAndOtherCompensation |
數字 | 以美元為單位的薪資、小費和其他補償金額。 IRS W-2 欄位 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
數字 | 以美元為單位的聯邦所得稅預扣金額。 IRS W-2 欄位 2 | 1234567.89 | |
SocialSecurityWages |
數字 | 以美元為單位的社會安全工資金額。 IRS W-2 欄位 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
數字 | 以美元為單位的社會安全稅務預扣金額。 IRS W-2 欄位 4 | 1234567.89 | |
MedicareWagesAndTips |
數字 | 以美元為單位的醫療保險薪資金額。 IRS W-2 欄位 5 | 1234567.89 | |
MedicareTaxWithheld |
數字 | 以美元為單位的醫療稅務預扣金額。 IRS W-2 欄位 6 | 1234567.89 | |
SocialSecurityTips |
數字 | 以美元為單位的社會安全小費金額。 IRS W-2 欄位 7 | 1234567.89 | |
AllocatedTips |
數字 | 以美元為單位的劃分小費。 IRS W-2 欄位 8 | 1234567.89 | |
VerificationCode |
數字 | W-2 驗證碼。 IRS W-2 欄位 9 | 1234567.89 | |
DependentCareBenefits |
數字 | 以美元為單位的受扶養人照護福利金額。 IRS W-2 欄位 10 | 1234567.89 | |
NonQualifiedPlans |
數字 | 以美元為單位的非限定方案金額。 IRS W-2 欄位 11 | 1234567.89 | |
IsStatutoryEmployee |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
IsRetirementPlan |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
IsThirdPartySickPay |
String | IRS W-2 欄位 13 的一部分。 可以是 true 或 false | true | |
Other |
String | IRS W-2 欄位 14 的內容 | SICK LV WAGES SBJT TO $511/DAY LIMIT 1356 | |
StateTaxInfos |
Array | 州稅相關資訊。 IRS W-2 欄位 15 到 17 的內容 | ||
LocaleTaxInfos |
Array | 當地稅相關資訊。 IRS W-2 欄位 18 到 20 的內容 |
欄位擷取 1098
以下是從 JSON 輸出回應中 1098 稅務表單擷取的欄位。 也支援 1098-T 和 1098-E 表單。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxYear | 數字 | 表單稅務年度 | 2021 |
借款人 | Object | 包含借款人 TIN、姓名、地址和 AccountNumber 的物件 | |
放款人 | Object | 包含放款人 TIN、姓名、地址和電話的物件 | |
抵押貸款利息 | 數字 | 向付款人/借款人收取的抵押貸款利息金額 (方塊 1) | 1,234,567.89 |
OutstandingMortgagePrincipal | 數字 | 未償還抵押貸款本金 (方塊 2) | 1,234,567.89 |
MortgageOriginationDate | Date | 抵押貸款的起始日期 (方塊 3) | 2022 年 1 月 1 日 |
OverpaidInterestRefund | 數字 | 溢付利息的退還金額 (方塊 4) | 1,234,567.89 |
MortgageInsurancePremium | 數字 | 抵押保險保費金額 (方塊 5) | 1,234,567.89 |
PointsPaid | 數字 | 購買主要住宅時支付的積分 (方塊 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | String | 抵押財產的地址與付款人/借款人的郵寄地址是否相同 (方塊 7) | true |
PropertyAddress | String | 抵押財產的地址或描述 (方塊 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | 數字 | 抵押財產數量 (方塊 9) | 1 |
其他 | String | 向付款人報告的額外資訊 (方塊 10) | |
RealEstateTax | 數字 | 房地產稅 (方塊 1) | 1,234,567.89 |
AdditionalAssessment | String | 加入對財產的評量 (方塊 10) | 1,234,567.89 |
MortgageAcquisitionDate | date | 抵押貸款取得日期 (方塊 11) | 2022 年 1 月 1 日 |
欄位擷取 1099-NEC
以下是從 JSON 輸出回應中 1099-NEC 稅務表單擷取的欄位。 也支援 1099 的其他變化型。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxYear |
String | 從 1099-NEC 表單擷取的稅賦年度。 | 2021 |
Payer |
Object | 包含放款人 TIN、姓名、地址和電話號碼的物件 | |
Recipient |
Object | 包含借款人 TIN、姓名、地址和帳號的物件 | |
Box1 |
數值 | 從 1099-NEC 表單擷取的方塊 1。 | 123456 |
Box2 |
boolean | 從 1099-NEC 表單擷取的方塊 2。 | true |
Box4 |
數值 | 從 1099-NEC 表單擷取的方塊 4。 | 123456 |
StateTaxesWithheld |
陣列 | 從 1099-NEC (方塊 5、6 和 7) 擷取的國家稅賦扣繳 |
欄位擷取 1040 稅務表單
以下是從 JSON 輸出回應中 1040 稅務表單擷取的欄位。 也支援 1040 的其他變化型。
名稱 | 類型 | 描述 | 範例輸出 |
---|---|---|---|
TaxPayer |
Object | 包含納稅人資訊 (例如:社會安全號碼、姓氏、位址) 的物件 | |
Spouse |
Object | 包含配偶的資訊 (例如:社會安全號碼、姓氏、名字和名字縮寫) 的物件 | |
Dependents |
陣列 | 包含受撫養者清單 (包括名稱、社會安全號碼、信用類型等資訊) 的陣列 | |
ThirdPartyDesignee |
object | 包含第三方被指派者相關資訊的物件 | |
SignatureDetails |
object | 包含有關簽署者的資訊 (例如電話號碼和電子郵件) 的物件 | |
PaidPreparer |
object | 包含準備者相關資訊的物件。 | |
FillingStatus |
String | 值可以是以下任一個:noSelection、single、marriedFilingJointly、marriedFillingSeparately、headOfHousehold、qualifyingSurvivingSpouse multiSelection。 | single |
FilingStatusDetails |
object | 包含提申狀態相關資訊的物件。 | |
NameOfSpouseOrQualifyingPerson |
String | 從 1040 表單擷取的配偶或合格人員名稱。 | John Smith |
PresidentialElectionCampaign |
String | 值可以是 noSelection、納稅人、配偶或 multiSelection 之一。 | 納稅人 |
PresidentialElectionCampaignDetails |
object | 包含關於總統競選活動詳細資料的物件。 | |
DigitalAssets |
String | 值可以是以下任一個:noSelection、yes、no、multiSelection。 | 是 |
DigitalAssetsDetails |
object | 包含關於數位資產詳細資料的物件。 | |
ClaimStatus |
String | Value 可以是以下任一個:noSelection、taxpayerAsDependent、spouseAsDependent、spouseItemizesSeparatelyOrDualStatusAlien、multiSelection。 | taxpayerAsDependent |
ClaimStatusDetails |
object | 包含關於索賠狀態詳細資料的物件。 | |
TaxpayerAgeBlindness |
String | 值可以是以下任一個:noSelection、above64 、multiSelection。 |
above64 |
TaxPayerAgeBlindnessDetails |
object | 包含關於納稅人年齡失明的詳細資料的物件。 | |
SpouseAgeBlindness |
String | 值可以是以下任一個:noSelection、above64 、multiSelection。 |
above64 |
TaxPayerAgeBlindnessDetails |
object | 包含關於配偶年齡失明的詳細資料的物件。 | |
MoreThanFourDependents |
boolean | 從 1040 表單擷取的四個以上的受撫養者。 | true |
Box1a |
數值 | 從 1040 擷取的方塊 1a 。 |
123456 |
根據提供的 JSON 結構,並將它轉換成與要求相同的資料表格式,結果如下所示: | |||
Box1b |
數值 | 從 1040 擷取的方塊 1b 。 |
123456 |
Box1c |
數值 | 從 1040 擷取的方塊 1c 。 |
123456 |
Box1d |
數值 | 從 1040 擷取的方塊 1d 。 |
123456 |
Box1e |
數值 | 從 1040 擷取的方塊 1e 。 |
123456 |
Box1f |
數值 | 從 1040 擷取的方塊 1f 。 |
123456 |
Box1g |
數值 | 從 1040 擷取的方塊 1g 。 |
123456 |
Box1h |
數值 | 從 1040 擷取的方塊 1h 。 |
123456 |
Box1i |
數值 | 從 1040 擷取的方塊 1i 。 |
123456 |
Box1z |
數值 | 從 1040 擷取的方塊 1z 。 |
123456 |
Box2a |
數值 | 從 1040 擷取的方塊 2a 。 |
123456 |
Box2b |
數值 | 從 1040 擷取的方塊 2b 。 |
123456 |
Box3a |
數值 | 從 1040 擷取的方塊 3a 。 |
123456 |
Box3b |
數值 | 從 1040 擷取的方塊 3b 。 |
123456 |
Box4a |
數值 | 從 1040 擷取的方塊 4a 。 |
123456 |
Box4b |
數值 | 從 1040 擷取的方塊 4b 。 |
123456 |
Box5a |
數值 | 從 1040 擷取的方塊 5a 。 |
123456 |
Box5b |
數值 | 從 1040 擷取的方塊 5b 。 |
123456 |
Box6a |
數值 | 從 1040 擷取的方塊 6a 。 |
123456 |
Box6b |
數值 | 從 1040 擷取的方塊 6b 。 |
123456 |
Box6cCheckbox |
boolean | 從 1040 擷取的方塊 6c 核取方塊。 |
true |
Box7Checkbox |
boolean | 從 1040 擷取的方塊 7 核取方塊。 | true |
Box7 |
數值 | 從 1040 擷取的方塊 7。 | 123456 |
Box8 |
數值 | 從 1040 擷取的方塊 8。 | 123456 |
Box9 |
數值 | 從 1040 擷取的方塊 9。 | 123456 |
Box10 |
數值 | 從 1040 擷取的方塊 10。 | 123456 |
Box11 |
數值 | 從 1040 擷取的方塊 11。 | 123456 |
Box12 |
數值 | 從 1040 擷取的方塊 12。 | 123456 |
Box13 |
數值 | 從 1040 擷取的方塊 13。 | 123456 |
Box14 |
數值 | 從 1040 擷取的方塊 14。 | 123456 |
Box15 |
數值 | 從 1040 擷取的方塊 15。 | 123456 |
Box16FromForm |
字串 | 值可以是以下任一個:noSelection、8814、4972、其他或 multiSelection。 | 8814 |
Box16FromFormDetails |
object | 包含關於方塊 16 詳細資料的物件 | |
Box16OtherFormNumber |
字串 | 從 1040 擷取的 方塊 16 其他表單號碼。 | 8888 |
Box16 |
數值 | 從 1040 擷取的方塊 16。 | 123456 |
Box17 |
數值 | 從 1040 擷取的方塊 17。 | 123456 |
Box18 |
數值 | 從 1040 擷取的方塊 18。 | 123456 |
Box19 |
數值 | 從 1040 擷取的方塊 19。 | 123456 |
Box20 |
數值 | 從 1040 擷取的方塊 20。 | 123456 |
Box21 |
數值 | 從 1040 擷取的方塊 21。 | 123456 |
Box22 |
數值 | 從 1040 擷取的方塊 22。 | 123456 |
Box23 |
數值 | 從 1040 擷取的方塊 23。 | 123456 |
Box24 |
數值 | 從 1040 擷取的方塊 24。 | 123456 |
Box25a |
數值 | 從 1040 擷取的方塊 25a 。 |
123456 |
Box25b |
數值 | 從 1040 擷取的方塊 25b 。 |
123456 |
Box25c |
數值 | 從 1040 擷取的方塊 25c 。 |
123456 |
Box25d |
數值 | 從 1040 擷取的方塊 25d 。 |
123456 |
Box26 |
數值 | 從 1040 擷取的方塊 26。 | 123456 |
Box27 |
數值 | 從 1040 擷取的方塊 27。 | 123456 |
Box28 |
數值 | 從 1040 擷取的方塊 28。 | 123456 |
Box29 |
數值 | 從 1040 擷取的方塊 29。 | 123456 |
Box31 |
數值 | 從 1040 擷取的方塊 31。 | 123456 |
Box32 |
數值 | 從 1040 擷取的方塊 32。 | 123456 |
Box33 |
數值 | 從 1040 擷取的方塊 33。 | 123456 |
Box34 |
數值 | 從 1040 擷取的方塊 34。 | 123456 |
Box35Checkbox |
boolean | 從 1040 擷取的方塊 35 核取方塊。 | true |
Box35a |
數值 | 從 1040 擷取的方塊 35a 。 |
123456 |
Box35b |
數值 | 從 1040 擷取的方塊 35b 。 |
123456 |
Box35c |
字串 | 值可以是以下任一個:noSelection、活存、儲蓄、或 multiSelection。 | 檢查 |
Box35cDetails |
object | 包含關於方塊 35c 詳細資料的物件 |
|
Box35d |
數值 | 從 1040 擷取的方塊 35d 。 |
123456 |
Box36 |
數值 | 從 1040 擷取的方塊 36。 | 123456 |
Box37 |
數值 | 從 1040 擷取的方塊 37。 | 123456 |
Box38 |
數值 | 從 1040 擷取的方塊 38。 | 123456 |
HasAssignedThirdPartyDesignee |
字串 | 值可以是以下任一個:noSelection、yes、no、multiSelection。 | 是 |
HasAssignedThirdPartyDesigneeDetails |
object | 包含已指派之第三方簽署者所選取項目相關資訊的物件 |
擷取的稅務文件機碼值組和明細項目位於 JSON 輸出的 documentResults
區段中。
下一步
使用文件智慧服務工作室嘗試處理您自己的表單和文件。
完成 Document Intelligence 快速入門,並開始以您選擇的開發語言來建立文件處理應用程式。
- 在 GitHub 上尋找更多範例 (英文)。
- 在 GitHub 上尋找更多範例 (英文)。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應