ドキュメント処理モデル

このコンテンツの適用対象:v4.0 (GA) | 以前のバージョン:v3.1 (GA)v3.0 (GA)v2.1 (GA)

このコンテンツの適用対象:v3.1 (GA) | 最新バージョン:v4.0 (GA) | 以前のバージョン:v3.0v2.1

このコンテンツの適用対象:v3.0 (GA) | 最新バージョン:v4.0 (GA)v3.1 | 以前のバージョン:v2.1

このコンテンツの適用対象:v2.1 | 最新バージョン: v4.0 (GA)

Foundry Tools の Azure ドキュメントインテリジェンスでは、インテリジェントなドキュメント処理をアプリやフローに追加するために使用できるさまざまなモデルがサポートされています。事前構築済みのドメイン固有のモデルを使用することも、特定のビジネスニーズやユースケースに合わせてカスタマイズされたカスタムモデルをトレーニングすることもできます。 Document Intelligence は、REST API または Python、C#、Java、JavaScript クライアントライブラリで使用できます。

Note

財務データ、保護された健康データ、個人データ、または機密性の高いデータを含むドキュメント処理プロジェクトには、細心の注意が必要です。すべての国/地域の要件および業界固有の要件に必ず従うようにしてください。

モデルの概要

次の表は、各安定版 API の一般提供 (GA) モデルを示しています。

モデルの種類	モデル	2024-11-30 (GA)	2023-07-31 (GA)	2022-08-31 (GA)	v2.1 (GA)
ドキュメント分析モデル	読み取り	✔️	✔️	✔️	使用不可
ドキュメント分析モデル	レイアウト	✔️	✔️	✔️	✔️
ドキュメント分析モデル	一般ドキュメント**	サポート対象 : レイアウトモデル	✔️	✔️	使用不可
事前構築済みのモデル	銀行小切手	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	銀行取引明細書	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	payStub	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	契約書	✔️	✔️	使用不可	使用不可
事前構築済みのモデル	医療保険カード	✔️	✔️	✔️	使用不可
事前構築済みのモデル	身分証明書	✔️	✔️	✔️	✔️
事前構築済みのモデル	請求書	✔️	✔️	✔️	✔️
事前構築済みのモデル	領収書	✔️	✔️	✔️	✔️
事前構築済みのモデル	米国統一税*	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国 1040 税*	✔️	✔️	使用不可	使用不可
事前構築済みのモデル	米国 1095 税*	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国 1098 税*	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国 1099 税*	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国 W2 税	✔️	✔️	✔️	使用不可
事前構築済みのモデル	米国 W4 税	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国住宅ローン 1003 URLA	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国住宅ローン 1004 URAR	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国住宅ローン 1005	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国住宅ローン 1008 の概要	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	米国住宅ローンのクロージング開示書	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	結婚証明書	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	クレジットカード	✔️	使用不可	使用不可	使用不可
事前構築済みのモデル	名刺	使用されていない	✔️	✔️	✔️
カスタム分類モデル	カスタム分類子	✔️	✔️	使用不可	使用不可
カスタム抽出モデル	カスタムニューラル	✔️	✔️	✔️	使用不可
カスタム抽出モデル	カスタムテンプレート	✔️	✔️	✔️	✔️
カスタム抽出モデル	カスタム構成済み	✔️	✔️	✔️	✔️
すべてのモデル	アドオン機能	✔️	✔️	使用不可	使用不可

* サブモデルが含まれています。サポートされているバリエーションとサブタイプについては、モデル固有の情報を参照してください。
** 一般ドキュメントモデルのすべての機能は、レイアウトモデルで使用できます。一般モデルはサポートされなくなりました。

Latency

待機時間は、API サーバーが受信要求を処理し、クライアントに送信応答を配信するためにかかる時間です。ドキュメントの分析にかかる時間は、サイズ（例えばページ数）や各ページの関連コンテンツによって異なります。 Document Intelligence はマルチテナント非同期サービスであり、類似したドキュメントに対する待機時間は比較可能ですが、常に同一とは限りません。待機時間やパフォーマンスが場合によって変動するのは、画像や大きなドキュメントを大規模に処理する任意のマイクロサービスベースのステートレスサービスに固有の現象です。 Microsoft では、ハードウェア、容量、スケーリング機能を継続的にスケールアップしていますが、実行時に待ち時間の問題が発生する可能性は依然として存在します。

アドオン機能

Document Intelligence には、次のアドオン機能を使用できます。名刺モデルを除くすべてのモデルにおいて、Document Intelligence は、より高度な分析を可能にするアドオン機能をサポートするようになりました。ドキュメント抽出のシナリオに応じて、これらのオプション機能を有効または無効にすることができます。 2023-07-31 (GA) 以降の API バージョンでは、次のアドオン機能を使用できます。

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs
queryFields (米国税モデルでは使用できません)
searchablePDF (読み取りモデルでのみ使用できます)

アドオン機能	アドオン/無料	2024年11月30日 (GA)	2023-07-31 (GA)	2022-08-31 (GA)	v2.1 (GA)
Font プロパティの抽出	アドオン	✔️	✔️	使用不可	使用不可
数式の抽出	アドオン	✔️	✔️	使用不可	使用不可
高解像度の抽出	アドオン	✔️	✔️	使用不可	使用不可
バーコード抽出	Free	✔️	✔️	使用不可	使用不可
言語検出	Free	✔️	✔️	使用不可	使用不可
キーと値のペア。	Free	✔️	使用不可	使用不可	使用不可
クエリフィールド	アドオン*	✔️	使用不可	使用不可	使用不可
検索可能な PDF	アドオン*	✔️	使用不可	使用不可	使用不可

モデル分析機能

モデル ID	コンテンツ抽出	クエリフィールド	段落	段落の役割	選択マーク	テーブル	キーと値のペア。	言語	バーコード	ドキュメント分析	数式*	スタイルフォント*	高解像度*	検索可能な PDF
`prebuilt-read`	✓		✓					O	O		O	O	O	O
`prebuilt-layout`	✓	✓	✓	✓	✓	✓	O	O	O		O	O	O
`prebuilt-contract`	✓	✓	✓	✓	✓			O	O	✓	O	O
`prebuilt-healthInsuranceCard.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-idDocument`	✓	✓						O	O	✓	O	O	O
`prebuilt-invoice`	✓	✓			✓	✓	O	O	O	✓	O	O	O
`prebuilt-receipt`	✓	✓						O	O	✓	O	O	O
`prebuilt-marriageCertificate.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-creditCard`	✓	✓						O	O	✓	O	O	O
`prebuilt-check.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-payStub.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-bankStatement`	✓	✓						O	O	✓	O	O	O
`prebuilt-mortgage.us.1003`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1004`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1005`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1008`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.closingDisclosure`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w2`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w4`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1040` (各種)	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1095A`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1095C`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1098`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098E`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098T`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099` (各種)	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099SSA`	✓	✓						O	O	✓	O	O	O
`{ customModelName }`	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ - 有効
O - 省略可能
* - Premium 機能には追加コストが発生します

クエリフィールドの価格は、他のアドオン機能とは異なります。詳細については、価格に関するページをご覧ください。

境界ボックスと多角形の座標

境界ボックス (v3.0 以降のバージョンでは polygon) は、ドキュメント内のテキスト要素を囲む抽象的な四角形です。境界ボックスは、物体検出の参照ポイントとして使用されます。

境界ボックスでは、4 つの数値ペアの配列で表される xy 座標平面を使用して位置を指定します。各ペアが、左上、右上、右下、左下の順序でこのボックスの角を表します。
画像の座標はピクセル単位で表示されます。 PDF の場合、座標はインチ単位で表示されます。

言語のサポート

ディープラーニングに基づく Document Intelligence のユニバーサルモデルは、多くの言語をサポートしています。これらのモデルは、複数の言語が混在するテキスト行を含め、多言語テキストを画像やドキュメントから抽出できます。言語サポートは、Document Intelligence サービスの機能によって異なります。完全な一覧については、以下の記事を参照してください。

リージョン別の提供状況

Document Intelligence は、60 を超える Azure グローバルインフラストラクチャリージョンの多くで一般提供されています。

自分と顧客にとって最適なリージョンを選択する際に役立つ情報については、「Azure の地域」を参照してください。

モデルの詳細

このセクションでは、各モデルで期待できる出力について説明します。大部分のモデルの出力はアドオン機能を使用することで拡張できます。

OCR の読み取り

Read API では、光学式文字認識 (OCR) を使用して、行と単語、それらの位置、検出された言語、検出された場合は手書きのスタイルが分析され、抽出されます。

このサンプルドキュメントは、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio の読み取りを使用して処理されたサンプルドキュメントを示すスクリーンショット。

詳細情報: モデルの読み取り

レイアウト分析

レイアウト分析モデルでは、テキスト、テーブル、選択マーク、その他の構造要素 (タイトル、セクション見出し、ページヘッダー、ページフッター) が分析され、抽出されます。

このサンプルドキュメントは、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio を使用して処理された新聞ページを示すスクリーンショット。

詳細情報: レイアウトモデル

健康保険証

医療保険カードモデルでは、強力な OCR 機能と、ディープラーニングモデルの組み合わせにより、米国の医療保険カードが分析されて、重要な情報が抽出されます。

このサンプルの米国医療保険カードは、Document Intelligence Studio を使用して処理されました。

詳細情報: 医療保険カードモデル

米国税務書類

米国税務書類モデルでは、税務書類の選択グループから主要なフィールドと明細を分析して抽出します。この API は、スマートフォンで撮影した画像、スキャンしたドキュメント、デジタル PDF など、形式と品質がさまざまな、英語で書かれた米国税ドキュメントの分析をサポートしています。現在サポートされているモデルは次のとおりです。

モデル	説明	モデル ID
米国税 W-2	課税対象の報酬の詳細を抽出します。	`prebuilt-tax.us.w2`
米国税 W-4	課税対象の報酬の詳細を抽出します。	`prebuilt-tax.us.w4`
米国税 1040	住宅ローンの利息の詳細を抽出します。	`prebuilt-tax.us.1040` (複数のバリエーション)
米国税 1095	医療保険の詳細を抽出します。	`prebuilt-tax.us.1095` (複数のバリエーション)
米国税 1098	住宅ローンの利息の詳細を抽出します。	`prebuilt-tax.us.1098` (複数のバリエーション)
米国税 1099	雇用主以外のソースから受け取った所得を抽出します。	`prebuilt-tax.us.1099` (複数のバリエーション)

このサンプル W-2 ドキュメントは、Document Intelligence Studio を使用して処理されました。

サンプル W-2 ドキュメントを示すスクリーンショット。

詳細情報: 税務書類モデル

米国の住宅ローンドキュメント

米国の住宅ローンドキュメントモデルでは、選択された住宅ローンドキュメントのグループから借り手、ローン、物件情報を含む主要なフィールドが分析され、抽出されます。この API は、スマートフォンで撮影した画像、スキャンしたドキュメント、デジタル PDF など、形式と品質がさまざまな、英語で書かれた米国住宅ローンドキュメントの分析をサポートしています。現在、次のモデルがサポートされています。

モデル	説明	モデル ID
1003 エンドユーザー使用許諾契約書	ローン、借り手、不動産の詳細を抽出します。	`prebuilt-mortgage.us.1003`
1004 統一住宅評価報告書 (URAR)	ローン、借り手、不動産の詳細を抽出します。	`prebuilt-mortgage.us.1004`
1005 雇用確認書	ローン、借り手、不動産の詳細を抽出します。	`prebuilt-mortgage.us.1005`
1008 概要ドキュメント	借り手、売り手、不動産、住宅ローン、引受の詳細を抽出します。	`prebuilt-mortgage.us.1008`
クロージング開示書	決算、取引コスト、ローンの詳細を抽出します。	`prebuilt-mortgage.us.closingDisclosure`

このサンプルクロージング開示書は、Document Intelligence Studio を使用して処理されました。

サンプルクロージング開示書を示すスクリーンショット。

詳細情報: 住宅ローンドキュメントモデル

コントラクト

コントラクトモデルでは、当事者、管轄区域、契約 ID、タイトルなど、契約上の同意から主要なフィールドと明細が分析され、抽出されます。このモデルでは現在、英語の契約文書がサポートされています。

このサンプルコントラクトは、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio を使用したコントラクトモデルの抽出を示すスクリーンショット。

詳細情報: コントラクトモデル

米国銀行小切手

コントラクトモデルでは、小切手の詳細、口座の詳細、金額、メモなど、米国の銀行小切手の主要なフィールドが分析され、抽出されます。

この銀行小切手サンプルは、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio を使用した銀行小切手モデルの抽出を示すスクリーンショット。

詳細情報: コントラクトモデル

米国銀行取引明細書

銀行取引明細書モデルでは、米国の銀行明細書の口座番号、銀行詳細、明細書の詳細、トランザクションの詳細から、主要なフィールドと明細を分析および抽出します。

このサンプル銀行取引明細書は、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio を使用した銀行取引明細書モデルの抽出を示すスクリーンショット。

詳細情報: コントラクトモデル

payStub

payStub モデルでは、給与関連情報を含むドキュメントとファイルから主要なフィールドと明細が分析され、抽出されます。

このサンプル給与明細は、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio を使用した payStub モデルの抽出を示すスクリーンショット。

詳細情報: コントラクトモデル

請求書

請求書モデルでは、請求書の処理が自動化され、顧客名、請求先住所、期限、金額、明細、その他のキーデータが抽出されます。

このサンプル請求書は、Document Intelligence Studio を使用して処理されました。

詳細情報: 請求書モデル

Receipt

領収書モデルを使用して、印刷された領収書や手書きの領収書から、マーチャント名、日付、明細、数量の売上領収書をスキャンすることができます。バージョン v3.0 は、1 ページのホテル領収書の処理もサポートしています。

このサンプル領収書は、Document Intelligence Studio を使用して処理されました。

詳細情報: 領収書モデル

身分証明書

身分証明書 (ID) モデルを使用すると、米国の運転免許証 (50 州のすべてとコロンビア特別区) と国際パスポートの個人情報ページ (ビザや他の渡航文書を除く) を処理し、主要なフィールドを抽出することができます。

このサンプル米国運転免許証は、Document Intelligence Studio を使用して処理されました。

詳細情報: 身分証明書モデル

結婚証明書

結婚証明書モデルを使用して米国の結婚証明書を処理し、個人、日付、場所などの主要なフィールドを抽出します。

このサンプル米国結婚証明書は、Document Intelligence Studio を使用して処理されました。

詳細情報: 身分証明書モデル

クレジットカード

クレジットカードモデルを使用して、クレジットカードとデビットカードを処理し、主要なフィールドを抽出します。

このサンプルのクレジットカードは、Document Intelligence Studio を使用して処理されました。

詳細情報: 身分証明書モデル

カスタムモデル

カスタムモデルは大きく分けて 2 種類に分類されます。つまり、"ドキュメントの種類" の分類をサポートするカスタム分類モデルと、特定のドキュメントの種類から定義されたスキーマを抽出できるカスタム抽出モデルです。

カスタムモデルの種類と関連付けられたモデルビルドモードを示す図。

カスタムドキュメントモデルでは、ビジネスに固有のフォームやドキュメントからデータを分析し、抽出することができます。これらにより、特定のコンテンツ内のフォームフィールドが認識され、キーと値のペアとテーブルデータが抽出されます。始めるために必要なフォームの種類の例は 1 つのみです。

バージョン v3.0 以降のカスタムモデルでは、カスタムテンプレート (フォーム) 内の署名検出と、テンプレートとニューラルの両モデル内のページをまたぐ表がサポートされています。署名検出では、ドキュメントに署名した人物の ID ではなく、署名の存在を探します。モデルが署名検出に対して未署名を返した場合、そのモデルでは、定義されたフィールドに署名が見つかりませんでした。

このサンプルカスタムテンプレートは、Document Intelligence Studio を使用して処理されました。

Document Intelligence がカスタムフォームを分析しているスクリーンショット。

詳細情報: カスタムモデル

カスタム抽出

カスタム抽出モデルには、カスタムテンプレートとカスタムニューラルという 2 種類があります。カスタム抽出モデルを作成するには、抽出する値を持つドキュメントのデータセットにラベルを付け、ラベル付けされたデータセットに対してモデルをトレーニングします。始めるために必要な同じフォームまたはドキュメントの種類の例は 5 つのみです。

このサンプルカスタム抽出は、Document Intelligence Studio を使用して処理されました。

Document Intelligence Studio でのカスタム抽出モデル分析を示すスクリーンショット。

詳細情報: カスタムテンプレートモデル

詳細情報: カスタムニューラルモデル

カスタム分類子

カスタム分類モデルを使用すると、抽出モデルを呼び出す前にドキュメントの種類を特定できます。分類モデルは、2023-07-31 (GA) API 以降で使用できます。カスタム分類モデルをトレーニングするには、少なくとも 2 つの個別のクラスと、クラスごとに少なくとも 5 つのサンプルが必要です。

詳細情報: カスタム分類モデル

作成済みモデル

作成済みモデルは、カスタムモデルのコレクションを取得し、目的のフォームの種類から構築された 1 つのモデルに割り当てることで作成します。 1 つのモデル ID で呼び出される作成済みモデルに複数のカスタムモデルを割り当てることができます。 200 個までのトレーニングされたカスタムモデルを 1 つの作成済みモデルに割り当てることができます。

このサンプル作成済みモデルは Document Intelligence Studio にあります。

Document Intelligence Studio のカスタムモデルの作成ペインを示すスクリーンショット。

詳細情報: カスタムモデル

入力の要件

次のファイル形式がサポートされています。

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Office: Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
Read	✔	✔	✔
レイアウト	✔	✔	✔
一般ドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

写真とスキャン: 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを用意します。
PDF と TIFF: PDF と TIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます。)
ファイルサイズ: ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
パスワードロック: PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
テキストの高さ: 抽出するテキストの最小の高さは、1024 x 768 ピクセルの画像の場合で 12 ピクセルです。この寸法は、150 DPI で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニング: トレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
カスタム抽出モデルトレーニング: トレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
カスタム分類モデルトレーニング: トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。
Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。

Note

サンプルラベル付けツールでは、BMP ファイル形式はサポートされていません。この制限は、Document Intelligence サービスではなくツールによるものです。

バージョンの移行

Document Intelligence v3.1 移行ガイドの手順に従って、アプリケーションで Document Intelligence v3.0 を使用する方法について説明します。

モデル	説明
ドキュメント分析
レイアウト	ドキュメントからテキストとレイアウトの情報を抽出します。
事前構築済み
請求書	英語およびスペイン語の請求書から主要な情報を抽出します。
領収書	英語の領収書から主要な情報を抽出します。
身分証明書	米国の運転免許証と国際パスポートから主要な情報を抽出します。
名刺	英語の名刺から主要な情報を抽出します。
Custom
Custom	ビジネスに固有のフォームとドキュメントからデータを抽出します。カスタムモデルは、特定のデータとユースケースに合わせてトレーニングされます。
構成	カスタムモデルのコレクションを作成し、フォームの種類から構築された 1 つのモデルに割り当てます。

レイアウト

Layout API を使って、ドキュメントを分析し、テキスト、テーブルとヘッダー、選択マーク、構造情報を抽出することができます。

このサンプルドキュメントは、サンプルラベル付けツールを使用して処理されました。

サンプルラベル付けツールを使用したレイアウト分析を示すスクリーンショット。

詳細情報: レイアウトモデル