Document Intelligence の米国の税務書類モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
- 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
- パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
このコンテンツの対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)
このコンテンツの対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー)
Document Intelligence コントラクト モデルでは、強力な光学式文字認識 (OCR) 機能を使用して、税務書類の選択したグループから主要なフィールドと品目を分析および抽出します。 電話でキャプチャされた画像、スキャンされた書類、デジタル PDF など、さまざまな形式や品質の税務書類を使用できます。 API によって書類のテキストが分析されます; 顧客名、請求先住所、期限、支払金額などの主要な情報が抽出されます; 構造化された JSON データ表現が返されます。 このモデルでは現在、特定の英語の税務書類形式がサポートされています。
サポートされているドキュメントの種類:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 とバリエーション (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB)
- 1040 とバリエーション (スケジュール 1、スケジュール 2、スケジュール 3、スケジュール 8812、スケジュール A、スケジュール B、スケジュール C、スケジュール D、スケジュール E、スケジュール
EIC
、スケジュール F、スケジュール H、スケジュール J、スケジュール R、スケジュール SE、スケジュール シニア)
税務書類の自動処理
税務書類の自動処理は、税務書類からキー フィールドを抽出するプロセスです。 これまで、税務書類は手動で処理されていました。 このモデルを使用すると、税処理のシナリオを簡単に自動化できます。
開発オプション
Document Intelligence v4.0 (2023-10-31-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Document Intelligence v3.0 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
入力の要件
最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
サポートされているファイル形式:
モデル PDF 画像:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML既読 ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム抽出 ✔ ✔ カスタム分類 ✔ ✔ ✔ (2024-02-29-preview) PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。
カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1GB
で、最大 10,000 ページです。
税務書類 のデータ抽出を試す
顧客情報、ベンダーの詳細、品目などのデータが請求書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。
Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
Document Intelligence Studio
Document Intelligence Studio のホーム ページで、サポートされている税務書類モデルを選択します
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。
サポートされている言語とロケール
サポートされている言語の完全なリストについては、言語サポート — 事前構築済みモデルに関するページを "参照" してください。.
フィールド抽出 W-2
JSON 出力応答で W-2 税フォームから抽出されたフィールドを次に示します。
名前 | 種類 | 説明 | 出力例 | 扶養家族 |
---|---|---|---|---|
W-2FormVariant |
String | IR W-2 フォームバリアント。 このフィールドには、W-2 、W-2AS 、W-2CM 、W-2GU または W-2VI のいずれかの値を指定できます |
W-2 | |
TaxYear |
数値 | フォーム税年度 | 2021 | |
W2Copy |
String | W-2 税コピーバージョンとこのコピーに関連する印刷指示書 | Copy A—社会保障庁用 | |
Employee |
object | 社会保障番号、名前、住所を含むオブジェクト | ||
ControlNumber |
string | W-2 制御番号。 IRS W-2 フィールド d | 0AB12 D345 7890 | |
Employer |
Object | 雇用主識別番号、名前、住所を含むオブジェクト | ||
WagesTipsAndOtherCompensation |
番号 | 米国ドルの賃金、チップ、その他の報酬額。 IRS W-2 フィールド 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
数値 | 連邦所得税の源泉徴収額 (米国ドル)。 IRS W-2 フィールド 2 | 1234567.89 | |
SocialSecurityWages |
数値 | 米国ドルの社会保障賃金額。 IRS W-2 フィールド 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
数値 | 社会保障税の源泉徴収額 (米国ドル)。 IRS W-2 フィールド 4 | 1234567.89 | |
MedicareWagesAndTips |
数値 | 米国ドルのメディケアの賃金とチップの金額。 IRS W-2 フィールド 5 | 1234567.89 | |
MedicareTaxWithheld |
数値 | 米国ドルのメディケア税の源泉徴収額。 IRS W-2 フィールド 6 | 1234567.89 | |
SocialSecurityTips |
数値 | 社会保障のチップの金額 (米国ドル)。 IRS W-2 フィールド 7 | 1234567.89 | |
AllocatedTips |
数値 | 割り当てられたチップ (米国ドル)。 IRS W-2 フィールド 8 | 1234567.89 | |
VerificationCode |
数値 | W-2 検証コード。 IRS W-2 フィールド 9 | 1234567.89 | |
DependentCareBenefits |
数値 | 米国ドルの扶養介護給付額。 IRS W-2 フィールド 10 | 1234567.89 | |
NonQualifiedPlans |
数値 | 非適格プランの金額 (米国ドル)。 IRS W-2 フィールド 11 | 1234567.89 | |
IsStatutoryEmployee |
String | IRS W-2 フィールド 13 の一部。 true または false を指定できます | true | |
IsRetirementPlan |
String | IRS W-2 フィールド 13 の一部。 true または false を指定できます | true | |
IsThirdPartySickPay |
String | IRS W-2 フィールド 13 の一部。 true または false を指定できます | true | |
Other |
String | IRS W-2 フィールド 14 の内容 | 病気休暇賃金の限度額 $511/DAY LIMIT 1356 | |
StateTaxInfos |
Array | 州税関連の情報。 IRS W-2 フィールド 15 から 17 の内容 | ||
LocaleTaxInfos |
Array | 地方税に関する情報。 IRS W-2 フィールド 18 から 20 の内容 |
フィールド抽出 1098
JSON 出力応答で 1098 税フォームから抽出されたフィールドを次に示します。 1098-T および 1098-E のフォームもサポートされています。
名前 | 種類 | 説明 | 出力例 |
---|---|---|---|
TaxYear | 数値 | フォーム税年度 | 2021 |
り手 | オブジェクト | 借り手の TIN、名前、住所、および AccountNumber を含む オブジェクト | |
貸し手 | オブジェクト | 貸し手の TIN、名前、住所、電話を格納しているオブジェクト | |
MortgageInterest | 番号 | 支払人/借り手から受け取った住宅ローン利息額 (ボックス 1) | 1,234,567.89 |
OutstandingMortgagePrincipal | 数値 | 未払い住宅ローン残高 (ボックス 2) | 1,234,567.89 |
MortgageOriginationDate | 日付 | 住宅ローンの発生日 (ボックス 3) | 2022-01-01 |
OverpaidInterestRefund | 数値 | 支払超過利息の払い戻し額 (ボックス 4) | 1,234,567.89 |
MortgageInsurancePremium | 数値 | 住宅ローン保険料額 (ボックス 5) | 1,234,567.89 |
PointsPaid | 数値 | 本邸購入時に支払われたポイント(ボックス6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | String | 住宅ローンを保護する不動産の住所は、支払者/借り手の郵送先住所と同じですか (ボックス 7) | true |
PropertyAddress | String | 住宅ローンを確保する不動産の住所または説明(ボックス8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | 数値 | 住宅ローンのプロパティの数 (ボックス 9) | 1 |
その他 | String | 支払人に報告する追加情報 (ボックス 10) | |
RealEstateTax | 数値 | 不動産税 (ボックス 1) | 1,234,567.89 |
AdditionalAssessment | String | プロパティに対して行われた追加の評価 (ボックス 10) | 1,234,567.89 |
MortgageAcquisitionDate | date | 住宅ローン取得日 (ボックス 11) | 2022-01-01 |
フィールド抽出 1099-NEC
JSON 出力応答で 1099-nec 税フォームから抽出されたフィールドを次に示します。 1099 のその他のバリエーションもサポートされています。
名前 | 種類 | 説明 | 出力例 |
---|---|---|---|
TaxYear |
String | 1099-NEC フォームから抽出された税年度。 | 2021 |
Payer |
オブジェクト | 支払者の TIN、Name、Address、PhoneNumber を含むオブジェクト | |
Recipient |
オブジェクト | 受取人の TIN、名前、住所、AccountNumber を格納しているオブジェクト | |
Box1 |
数値 | 1099-NEC フォームから抽出された Box 1。 | 123456 |
Box2 |
boolean | 1099-NEC フォームから抽出された Box 2。 | true |
Box4 |
数値 | 1099-NEC フォームから抽出された Box 4。 | 123456 |
StateTaxesWithheld |
配列 | Form 1099-NEC から抽出された源泉徴収済み州税 (ボックス 5、6、7) |
フィールド抽出 1040 税フォーム
JSON 出力応答で 1040 税フォームから抽出されたフィールドを次に示します。 1040 のその他のバリエーションもサポートされています。
名前 | 種類 | 説明 | 出力例 |
---|---|---|---|
TaxPayer |
Object | SSN、姓、住所などの納税者の情報を含むオブジェクト | |
Spouse |
Object | SSN、姓、名、イニシャルなどの配偶者の情報を含むオブジェクト | |
Dependents |
配列 | 名前、SSN、クレジットの種類などの情報を含む扶養家族の一覧が含まれた配列 | |
ThirdPartyDesignee |
オブジェクト | 第三者の被指名人に関する情報を含むオブジェクト | |
SignatureDetails |
オブジェクト | 電話番号やメール アドレスなど、署名者に関する情報を含むオブジェクト | |
PaidPreparer |
オブジェクト | 作成者に関する情報を格納しているオブジェクト。 | |
FillingStatus |
String | 値には、noSelection、single、marriedFilingJointly、marriedFillingSeparately、headOfHousehold、qualifyingSurvivingSpouse、multiSelection のいずれかを指定できます。 | single |
FilingStatusDetails |
オブジェクト | 提出状態に関する情報を格納しているオブジェクト。 | |
NameOfSpouseOrQualifyingPerson |
String | フォーム 1040 から抽出された配偶者または有資格者の名前。 | John Smith |
PresidentialElectionCampaign |
String | 値には、noSelection、taxpayer、spouse、multiSelection のいずれかを指定できます。 | Taxpayer |
PresidentialElectionCampaignDetails |
オブジェクト | 大統領選挙キャンペーンに関する詳細を含むオブジェクト。 | |
DigitalAssets |
String | 値には、noSelection、yes、no、multiSelection のいずれかを指定できます。 | はい |
DigitalAssetsDetails |
オブジェクト | デジタル資産に関する詳細を含むオブジェクト。 | |
ClaimStatus |
String | 値には、noSelection、taxpayerAsDependent、spouseAsDependent、spouseItemizesSeparatelyOrDualStatusAlien、multiSelection のいずれかを指定できます。 | taxpayerAsDependent |
ClaimStatusDetails |
オブジェクト | 請求状態に関する詳細を含むオブジェクト。 | |
TaxpayerAgeBlindness |
String | 値には、noSelection、above64 、blind、multiSelection のいずれかを指定できます。 |
above64 |
TaxPayerAgeBlindnessDetails |
オブジェクト | 納税者の年齢/視覚障害の有無に関する詳細を含むオブジェクト。 | |
SpouseAgeBlindness |
String | 値には、noSelection、above64 、blind、multiSelection のいずれかを指定できます。 |
above64 |
TaxPayerAgeBlindnessDetails |
オブジェクト | 配偶者の年齢/視覚障害の有無に関する詳細を含むオブジェクト。 | |
MoreThanFourDependents |
boolean | フォーム 1040 から抽出された 4 人を超える扶養家族。 | true |
Box1a |
数値 | 1040 から抽出されたボックス 1a 。 |
123456 |
指定された JSON 構造体に基づいて、要求されたものと同じテーブル形式に変換すると、結果は次のようになります。 | |||
Box1b |
数値 | 1040 から抽出されたボックス 1b 。 |
123456 |
Box1c |
数値 | 1040 から抽出されたボックス 1c 。 |
123456 |
Box1d |
数値 | 1040 から抽出されたボックス 1d 。 |
123456 |
Box1e |
数値 | 1040 から抽出されたボックス 1e 。 |
123456 |
Box1f |
数値 | 1040 から抽出されたボックス 1f 。 |
123456 |
Box1g |
数値 | 1040 から抽出されたボックス 1g 。 |
123456 |
Box1h |
数値 | 1040 から抽出されたボックス 1h 。 |
123456 |
Box1i |
数値 | 1040 から抽出されたボックス 1i 。 |
123456 |
Box1z |
数値 | 1040 から抽出されたボックス 1z 。 |
123456 |
Box2a |
数値 | 1040 から抽出されたボックス 2a 。 |
123456 |
Box2b |
数値 | 1040 から抽出されたボックス 2b 。 |
123456 |
Box3a |
数値 | 1040 から抽出されたボックス 3a 。 |
123456 |
Box3b |
数値 | 1040 から抽出されたボックス 3b 。 |
123456 |
Box4a |
数値 | 1040 から抽出されたボックス 4a 。 |
123456 |
Box4b |
数値 | 1040 から抽出されたボックス 4b 。 |
123456 |
Box5a |
数値 | 1040 から抽出されたボックス 5a 。 |
123456 |
Box5b |
数値 | 1040 から抽出されたボックス 5b 。 |
123456 |
Box6a |
数値 | 1040 から抽出されたボックス 6a 。 |
123456 |
Box6b |
数値 | 1040 から抽出されたボックス 6b 。 |
123456 |
Box6cCheckbox |
boolean | 1040 から抽出されたボックス 6c チェック ボックス。 |
true |
Box7Checkbox |
boolean | 1040 から抽出されたボックス 7 チェック ボックス。 | true |
Box7 |
数値 | 1040 から抽出されたボックス 7。 | 123456 |
Box8 |
数値 | 1040 から抽出されたボックス 8。 | 123456 |
Box9 |
数値 | 1040 から抽出されたボックス 9。 | 123456 |
Box10 |
数値 | 1040 から抽出されたボックス 10。 | 123456 |
Box11 |
数値 | 1040 から抽出されたボックス 11。 | 123456 |
Box12 |
数値 | 1040 から抽出されたボックス 12。 | 123456 |
Box13 |
数値 | 1040 から抽出されたボックス 13。 | 123456 |
Box14 |
数値 | 1040 から抽出されたボックス 14。 | 123456 |
Box15 |
数値 | 1040 から抽出されたボックス 15。 | 123456 |
Box16FromForm |
string | 値には、noSelection、8814、4972、other、multiSelection のいずれかを指定できます。 | 8814 |
Box16FromFormDetails |
オブジェクト | ボックス 16 に関する詳細を含むオブジェクト。 | |
Box16OtherFormNumber |
string | 1040 から抽出されたボックス 16 のその他のフォーム番号。 | 8888 |
Box16 |
数値 | 1040 から抽出されたボックス 16。 | 123456 |
Box17 |
数値 | 1040 から抽出されたボックス 17。 | 123456 |
Box18 |
数値 | 1040 から抽出されたボックス 18。 | 123456 |
Box19 |
数値 | 1040 から抽出されたボックス 19。 | 123456 |
Box20 |
数値 | 1040 から抽出されたボックス 20。 | 123456 |
Box21 |
数値 | 1040 から抽出されたボックス 21。 | 123456 |
Box22 |
数値 | 1040 から抽出されたボックス 22。 | 123456 |
Box23 |
数値 | 1040 から抽出されたボックス 23。 | 123456 |
Box24 |
数値 | 1040 から抽出されたボックス 24。 | 123456 |
Box25a |
数値 | 1040 から抽出されたボックス 25a 。 |
123456 |
Box25b |
数値 | 1040 から抽出されたボックス 25b 。 |
123456 |
Box25c |
数値 | 1040 から抽出されたボックス 25c 。 |
123456 |
Box25d |
数値 | 1040 から抽出されたボックス 25d 。 |
123456 |
Box26 |
数値 | 1040 から抽出されたボックス 26。 | 123456 |
Box27 |
数値 | 1040 から抽出されたボックス 27。 | 123456 |
Box28 |
数値 | 1040 から抽出されたボックス 28。 | 123456 |
Box29 |
数値 | 1040 から抽出されたボックス 29。 | 123456 |
Box31 |
数値 | 1040 から抽出されたボックス 31。 | 123456 |
Box32 |
数値 | 1040 から抽出されたボックス 32。 | 123456 |
Box33 |
数値 | 1040 から抽出されたボックス 33。 | 123456 |
Box34 |
数値 | 1040 から抽出されたボックス 34。 | 123456 |
Box35Checkbox |
boolean | 1040 から抽出されたボックス 35 チェック ボックス。 | true |
Box35a |
数値 | 1040 から抽出されたボックス 35a 。 |
123456 |
Box35b |
数値 | 1040 から抽出されたボックス 35b 。 |
123456 |
Box35c |
string | 値には、noSelection、checking、savings、multiSelection のいずれかを指定できます。 | チェック |
Box35cDetails |
オブジェクト | ボックス 35c に関する詳細を含むオブジェクト。 |
|
Box35d |
数値 | 1040 から抽出されたボックス 35d 。 |
123456 |
Box36 |
数値 | 1040 から抽出されたボックス 36。 | 123456 |
Box37 |
数値 | 1040 から抽出されたボックス 37。 | 123456 |
Box38 |
数値 | 1040 から抽出されたボックス 38。 | 123456 |
HasAssignedThirdPartyDesignee |
string | 値には、noSelection、yes、no、multiSelection のいずれかを指定できます。 | はい |
HasAssignedThirdPartyDesigneeDetails |
オブジェクト | 指定された第三者の被指名人に対して選択された内容に関する情報を含むオブジェクト |
抽出された請求書のキーと値のペアと明細項目は、JSON 出力の documentResults
セクションにあります。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示