ドキュメント処理モデル

[アーティクル]
04/10/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。
機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
パブリックプレビューバージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
米国東部
米国西部 2
"西ヨーロッパ"

このコンテンツの適用対象:v4.0 (プレビュー) | 以前のバージョン:v3.1 (GA)v3.0 (GA)v2.1 (GA)

このコンテンツの対象:v3.1 (GA) | 最新バージョン:v4.0 (プレビュー) | 以前のバージョン:v3.0v2.1

このコンテンツの対象:v3.0 (GA) | 最新バージョン:v4.0 (プレビュー)v3.1 | 以前のバージョン:v2.1

このコンテンツの適用対象:v2.1 | 最新バージョン:v4.0 (プレビュー)

Azure AI Document Intelligence は、アプリとフローにインテリジェントなドキュメント処理を追加できる、さまざまなモデルをサポートしています。事前構築済みのドメイン固有のモデルを使うか、特定のビジネスニーズとユースケースに合わせてカスタムモデルをトレーニングできます。 Document Intelligence は、REST API または Python、C#、Java、JavaScript の各クライアントライブラリで使用できます。

モデルの概要

次の表は、現行のプレビュー版と安定版の API ごとに使用可能なモデルを示しています。

モデルの種類	モデル	• 2024-02-29-preview &bullet 2023-10-31-preview	2023-07-31 (GA)	2022-08-31 (GA)	v2.1 (GA)
ドキュメント分析モデル	読み取り	✔️	✔️	✔️	該当なし
ドキュメント分析モデル	レイアウト	✔️	✔️	✔️	✔️
ドキュメント分析モデル	一般的なドキュメント	レイアウトに移動**	✔️	✔️	該当なし
事前構築済みのモデル	コントラクト	✔️	✔️	該当なし	該当なし
事前構築済みのモデル	医療保険カード	✔️	✔️	✔️	該当なし
事前構築済みのモデル	身分証明書	✔️	✔️	✔️	✔️
事前構築済みのモデル	請求書	✔️	✔️	✔️	✔️
事前構築済みのモデル	Receipt	✔️	✔️	✔️	✔️
事前構築済みのモデル	米国 1040 税*	✔️	✔️	該当なし	該当なし
事前構築済みのモデル	米国 1098 税*	✔️	該当なし	なし	該当なし
事前構築済みのモデル	米国 1099 税*	✔️	該当なし	なし	該当なし
事前構築済みのモデル	米国 W2 税	✔️	✔️	✔️	該当なし
事前構築済みのモデル	米国住宅ローン 1003 URLA	✔️	該当なし	なし	該当なし
事前構築済みのモデル	米国住宅ローン 1008 概要	✔️	該当なし	なし	該当なし
事前構築済みのモデル	米国住宅ローン決算開示	✔️	該当なし	なし	該当なし
事前構築済みのモデル	結婚証明書	✔️	該当なし	なし	該当なし
事前構築済みのモデル	クレジットカード	✔️	該当なし	なし	該当なし
事前構築済みのモデル	名刺	deprecated	✔️	✔️	✔️
カスタム分類モデル	カスタム分類子	✔️	✔️	該当なし	該当なし
カスタム抽出モデル	カスタムニューラル	✔️	✔️	✔️	該当なし
Customextraction モデル	カスタムテンプレート	✔️	✔️	✔️	✔️
カスタム抽出モデル	カスタム構成済み	✔️	✔️	✔️	✔️
すべてのモデル	アドオン機能	✔️	✔️	該当なし	該当なし

* - サブモデルが含まれています。サポートされているバリエーションとサブタイプについては、モデル固有の情報を参照してください。

アドオン機能	アドオン/無料	• 2024-02-29-preview &bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Font プロパティの抽出	アドオン	✔️	✔️	該当なし	該当なし
数式の抽出	アドオン	✔️	✔️	該当なし	該当なし
高解像度の抽出	アドオン	✔️	✔️	該当なし	該当なし
バーコード抽出	Free	✔️	✔️	該当なし	該当なし
言語検出	Free	✔️	✔️	該当なし	該当なし
キーと値のペア	Free	✔️	該当なし	なし	該当なし
クエリフィールド	アドオン*	✔️	該当なし	なし	該当なし

モデル分析機能

モデル ID	テキストの抽出	クエリフィールド	段落	段落の役割	選択マーク	テーブル	キーと値のペア	言語	バーコード	ドキュメント分析	数式*	スタイルのフォント*	高解像度*
prebuilt-read	✓						O	O		O	O	O
事前構築済みレイアウト	✓	✓	✓	✓	✓	✓		O	O		O	O	O
事前構築済みドキュメント	✓	✓	✓	✓	✓	✓	✓	O	O		O	O	O
事前構築された名刺	✓	✓								✓
prebuilt-contract	✓	✓	✓	✓			O	O	✓	O	O	O
prebuilt-healthInsuranceCard.us	✓	✓						O	O	✓	O	O	O
prebuilt-idDocument	✓	✓						O	O	✓	O	O	O
prebuilt-invoice	✓	✓			✓	✓	O	O	O	✓	O	O	O
prebuilt-receipt	✓	✓						O	O	✓	O	O	O
prebuilt-marriageCertificate.us	✓	✓						O	O	✓	O	O	O
prebuilt-creditCard	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1003	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1008	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.closingDisclosure	✓	✓						O	O	✓	O	O	O
prebuilt-tax.us.w2	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098E	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098T	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1099 (バリエーション)	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1040(variations)	✓	✓						O	O	✓	O	O	O
{ customModelName }	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ - 有効
O - 省略可能
* - 追加コストが発生する Premium 機能

アドオン* - クエリフィールドは、他のアドオン機能とは価格設定が異なります。詳細については、価格のページを参照してください。

モデル	説明
ドキュメント分析モデル
OCR の読み取り	単語、場所、検出された言語を含む印刷されたテキストと手書きのテキストを抽出します。
レイアウト分析	テーブル、選択マーク、タイトル、セクション見出しなどのテキストおよびドキュメントレイアウト要素を抽出します。
事前構築済みのモデル
医療保険カード	米国の医療保険カードから保険業者、会員、処方箋、グループ番号、その他の重要な情報を抽出することで、医療プロセスを自動化します。
米国の税務書類モデル	米国税フォームを処理して、従業員、雇用主、賃金、その他の情報を抽出します。
米国住宅ローンドキュメントモデル	米国住宅ローンフォームを処理して、借り手ローンと不動産情報を抽出します。
コントラクト	\|契約と当事者の詳細を抽出します。
請求書	請求書を自動化します。
Receipt	領収書から領収書データを抽出します。
身分証明書 (ID)	米国の運転免許証と国際パスポートから ID フィールドを抽出します。
名刺	名刺をスキャンして、キーフィールドとデータをアプリケーションに抽出します。
カスタムモデル
カスタムモデル (概要)	ビジネスに固有のフォームとドキュメントからデータを抽出します。カスタムモデルは、特定のデータとユースケースに合わせてトレーニングされます。
カスタム抽出モデル	● カスタムテンプレートモデルは、レイアウトキューを使用してドキュメントから値を抽出するもので、定義されたビジュアルテンプレートを使用して高度に構造化されたドキュメントからフィールドを抽出するのに適しています。 ● カスタムニューラルモデルは、構造化、半構造化、非構造化ドキュメントからフィールドを抽出するために、さまざまな種類のドキュメントを使用してトレーニングされています。
カスタム分類モデル	カスタム分類モデルは、入力ファイル内の各ページを分類してその中のドキュメントを識別できます。また、入力ファイル内の複数のドキュメントまたは 1 つのドキュメントの複数のインスタンスを識別することもできます。
作成済みモデル	複数のカスタムモデルを 1 つのモデルに結合して、1 つの作成済みモデルで多様なドキュメントの種類の処理を自動化します。

名刺モデルを除くすべてのモデルについて、Document Intelligence では、より高度な分析を可能にするアドオン機能がサポートされるようになりました。これらのオプション機能は、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 2023-07-31 (GA) 以降の API バージョンでは 7 つのアドオン機能を利用できます。

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs (2024-02-29-preview、2023-10-31-preview)
queryFields (2024-02-29-preview、2023-10-31-preview) Not available with the US.Tax models

モデルの詳細

このセクションでは、各モデルで期待できる出力について説明します。アドオン機能を使用して、ほとんどのモデルの出力を拡張できることに注意してください。

OCR の読み取り

Read API を使用すると、テキスト行、単語、その場所、検出された言語、および手書きのスタイル (検出された場合) を分析および抽出することができます。

Document Intelligence Studio を使用して処理されたサンプルドキュメント:

Document Intelligence Studio の Read を使用して処理されたサンプルドキュメントのスクリーンショット

詳細情報: モデルの読み取り

レイアウト分析

レイアウト分析モデルは、テキスト、テーブル、選択マーク、およびタイトル、セクション見出し、ページヘッダー、ページフッターなどのその他の構造要素を分析して抽出します。

Document Intelligence Studio を使用して処理されたサンプルドキュメント:

Document Intelligence Studio を使用して処理された新聞のサンプルページのスクリーンショット。

詳細情報: レイアウトモデル

医療保険カード

医療保険カードモデルでは、強力な光学式文字認識 (OCR) 機能と、ディープラーニングモデルの組み合わせにより、米国の医療保険カードが分析されて、重要な情報が抽出されます。

Document Intelligence Studio を使用して処理された米国の医療保険カードのサンプル:

詳細情報: 医療保険カードモデル

米国税務書類

米国税務書類モデルでは、税務書類の選択グループから主要なフィールドと明細を分析して抽出します。この API は、電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質の英語の米国税務書類の分析をサポートします。現在サポートされているモデルは次のとおりです。

モデル	説明	ModelID
米国税 W-2	課税対象の報酬の詳細を抽出します。	prebuilt-tax.us.W-2
米国税 1040	住宅ローンの利息の詳細を抽出します。	prebuilt-tax.us.1040(variations)
米国税 1098	住宅ローンの利息の詳細を抽出します。	prebuilt-tax.us.1098(variations)
米国税 1099	雇用主以外のソースから受け取った所得を抽出します。	prebuilt-tax.us.1099 (バリエーション)

Document Intelligence Studio を使用して処理された W-2 ドキュメントのサンプル:

サンプルの W-2 のスクリーンショット。

詳細情報: 税務書類モデル

米国の住宅ローンドキュメント

米国の住宅ローンドキュメントモデルでは、住宅ローンドキュメントの選択されたグループから、借り手、ローン、不動産情報を含む主要なフィールドを分析して抽出します。この API では、電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質の英語の米国住宅ローンドキュメントの分析がサポートされます。現在サポートされているモデルは次のとおりです。

モデル	説明	ModelID
1003 使用許諾契約書 (EULA)	ローン、借り手、不動産の詳細を抽出します。	prebuilt-mortgage.us.1003
1008 概要ドキュメント	借り手、売り手、不動産、住宅ローン、引受の詳細を抽出します。	prebuilt-mortgage.us.1008
決算開示	決算、取引コスト、ローンの詳細を抽出します。	prebuilt-mortgage.us.closingDisclosure
結婚証明書	共同ローン申請者の結婚情報の詳細を抽出します。	prebuilt-marriageCertificate
米国税 W-2	所得確認のために課税対象の報酬の詳細を抽出します。	prebuilt-tax.us.W-2

"Document Intelligence Studio を使用して処理された決済開示ドキュメントのサンプル":

決済開示サンプルのスクリーンショット。

詳細情報: 住宅ローンドキュメントモデル

コントラクト

契約モデルは、当事者、管轄区域、契約 ID、役職を含む契約の主要なフィールドと品目を分析して抽出します。このモデルでは現在、英語の契約文書がサポートされています。

Document Intelligence Studio を使用して処理された契約書のサンプル:

Document Intelligence Studio を使用した契約書モデル抽出のスクリーンショット。

詳細情報: 契約モデル

請求書

請求書モデルでは、請求書の処理が自動化され、顧客名、請求先住所、期限、金額、明細、およびその他のキーデータが抽出されます。現在、このモデルは、英語、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語、オランダ語の請求書をサポートしています。

Document Intelligence Studio を使用して処理された請求書のサンプル:

詳細情報: 請求書モデル

Receipt

レシートモデルを使用して、印刷されたレシートや手書きのレシートから、マーチャント名、日付、明細、数量の売上領収書をスキャンすることができます。バージョン v3.0 は、1 ページのホテル領収書の処理もサポートしています。

Document Intelligence Studio を使用して処理された領収書のサンプル:

詳細情報: 領収書モデル

身分証明書 (ID)

身分証明書 (ID) モデルを使用すると、米国の運転免許証 (全 50 州およびコロンビア特別区) および国際パスポートの個人情報ページ (ビザや他の渡航文書を除く) を処理し、キーフィールドを抽出することができます。

Document Intelligence Studio を使用して処理された米国の運転免許証のサンプル:

詳細情報: 身分証明書モデル

結婚証明書

結婚証明書モデルを使用して、米国の結婚証明書を処理し、個人、日付、場所などの主要なフィールドを抽出します。

"Document Intelligence Studio を使用して処理された米国の結婚証明書のサンプル":

詳細情報: 身分証明書モデル

クレジットカード

クレジットカードモデルを使用して、クレジットカードとデビットカードを処理し、主要なフィールドを抽出します。

"Document Intelligence Studio を使用して処理されたクレジットカードのサンプル":

詳細情報: 身分証明書モデル

カスタムモデル

カスタムモデルは、大きく 2 種類に分類できます。つまり、"ドキュメントの種類" の分類をサポートするカスタム分類モデルと、特定のドキュメントの種類から定義されたスキーマを抽出できるカスタム抽出モデルです。

カスタムモデルの種類と関連するモデルビルドモードの図。

カスタムドキュメントモデルでは、ビジネスに固有のフォームやドキュメントからデータを分析し、抽出することができます。これらは、特定のコンテンツ内のフォームフィールドを認識し、キーと値のペアおよびテーブルデータを抽出するようにトレーニングされています。作業を開始するために必要なフォームの種類の例は 1 つだけです。

バージョン v3.0 のカスタムモデルでは、カスタムテンプレート (フォーム) 内の署名検出と、テンプレートとニューラルの両モデル内のページをまたぐ表がサポートされています。

Document Intelligence Studio を使用して処理されたカスタムテンプレートのサンプル:

$Document Intelligence ツールの [analyze-a-custom-form]$カスタムフォームの分析$ ウィンドウのスクリーンショット。$

詳細情報: カスタムモデル

カスタム抽出

カスタム抽出モデルは、カスタムテンプレートまたはカスタムニューラルの 2 種類のいずれかにできます。カスタム抽出モデルを作成するには、抽出する値を持つドキュメントのデータセットにラベルを付け、ラベル付けされたデータセットに対してモデルをトレーニングします。始めるために必要な同じフォームまたはドキュメントの種類の例は 5 つのみです。

Document Intelligence Studio を使用して処理されたカスタム抽出のサンプル:

Document Intelligence Studio でのカスタム抽出モデル分析のスクリーンショット。

詳細情報: カスタムテンプレートモデル

詳細情報: カスタムニューラルモデル

カスタム分類子

カスタム分類モデルを使用すると、抽出モデルを呼び出す前にドキュメントの種類を識別できます。分類モデルは、2023-07-31 (GA) API 以降で使用できます。カスタム分類モデルをトレーニングするには、少なくとも 2 つの個別のクラスと、クラスごとに少なくとも 5 つのサンプルが必要です。

詳細情報: カスタム分類モデル

作成済みモデル

作成済みモデルは、カスタムモデルのコレクションを取得し、目的のフォームの種類から構築された 1 つのモデルに割り当てることで作成します。 1 つのモデル ID で呼び出される作成済みモデルに複数のカスタムモデルを割り当てることができます。 200 個までのトレーニングされたカスタムモデルを 1 つの作成済みモデルに割り当てることができます。

Document Intelligence Studio の作成済みモデルダイアログウィンドウ:

Document Intelligence Studio のカスタムモデル作成ダイアログウィンドウのスクリーンショット。

詳細情報: カスタムモデル

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

Note

サンプルラベル付けツールでは、BMP ファイル形式はサポートされていません。これは、Document Intelligence サービスではなくツールの制限です。

バージョンの移行

アプリケーションで Document Intelligence v3.0 を使用する方法については、Document Intelligence v3.1 移行ガイドに関する記事を参照してください

Model	説明
ドキュメント分析
レイアウト	ドキュメントからテキストとレイアウトの情報を抽出します。
事前構築済み
請求書	英語およびスペイン語の請求書から主要な情報を抽出します。
Receipt	英語の領収書から主要な情報を抽出します。
身分証明書	米国の運転免許証と国際パスポートから主要な情報を抽出します。
名刺	英語の名刺から主要な情報を抽出します。
Custom
Custom	ビジネスに固有のフォームとドキュメントからデータを抽出します。カスタムモデルは、特定のデータとユースケースに合わせてトレーニングされます。
構成	カスタムモデルのコレクションを作成し、フォームの種類から構築された 1 つのモデルに割り当てます。

Layout

Layout API を使って、ドキュメントを分析し、テキスト、テーブルとヘッダー、選択マーク、構造情報を抽出することができます。

"サンプルラベル付けツールを使用して処理されたサンプルのドキュメント":

サンプルラベル付けツールを使用する

詳細情報: レイアウトモデル

請求書

請求書モデルは、販売請求書から主要な情報が分析されて抽出されます。 API によって、さまざまな書式の請求書が分析され、顧客名、請求先住所、期限、請求額などの主要な情報が抽出されます。

"サンプルラベル付けツールを使用して処理されたサンプルの請求書":

サンプルラベル付けツールを使用するサンプルの請求書分析のスクリーンショット。

詳細情報: 請求書モデル

Receipt

領収書モデルでは、印刷された領収書と手書きのレシートから重要な情報を分析して抽出します。

"サンプルラベル付けツールを使用して処理されたサンプルのレシート":

詳細情報: 領収書モデル

身分証明書

身分証明書モデルでは、次のドキュメントから重要な情報を分析して抽出します。

米国の運転免許証 (50 州のすべてとコロンビア特別区)
国際パスポートの個人情報ページ (査証やその他の旅行ドキュメントを除く)。 API では、身分証明書を分析して抽出します。

"サンプルラベル付けツールを使用して処理された米国の運転免許証のサンプル":

ID カードのサンプルのスクリーンショット。

詳細情報: 身分証明書モデル

名刺

名刺モデルでは、名刺の画像から主要な情報が分析されて抽出されます。

"サンプルラベル付けツールを使用して処理されたサンプルの名刺":

サンプルの名刺のスクリーンショット。

詳細情報: 名刺モデル

Custom

カスタムモデルを使って、ビジネスに固有のフォームやドキュメントからデータを分析し、抽出することができます。この API は、特定のコンテンツ内のフォームフィールドを認識し、キーと値のペアおよびテーブルデータを抽出するようにトレーニングされた、機械学習プログラムです。始めるために必要なのは同じフォームの種類の 5 つの例だけであり、カスタムモデルのトレーニングは、ラベル付けされたデータセットがあってもなくても実行できます。

"サンプルラベル付けツールを使用して処理されたサンプルのカスタムモデル":

$Document Intelligence ツールの [analyze-a-custom-form]$カスタムフォームの分析$ ウィンドウのスクリーンショット。$

詳細情報: カスタムモデル

作成済みカスタムモデル

作成済みモデルは、カスタムモデルのコレクションを取得し、目的のフォームの種類から構築された 1 つのモデルに割り当てることで作成します。 1 つのモデル ID で呼び出される作成済みモデルに複数のカスタムモデルを割り当てることができます。 100 個までのトレーニングされたカスタムモデルを 1 つの構成済みモデルに割り当てることができます。

"サンプルラベル付けツールが使用されている作成済みモデルダイアログウィンドウ":

Document Intelligence Studio のカスタムモデル作成ダイアログウィンドウのスクリーンショット。

詳細情報: カスタムモデル

モデルデータの抽出

Model	テキストの抽出	選択マーク	テーブル	段落	段落の役割	キーと値のペア	Fields
レイアウト	✓	✓	✓	✓	✓
請求書	✓	✓	✓	✓		✓	✓
Receipt	✓			✓			✓
身分証明書	✓			✓			✓
名刺	✓			✓			✓
カスタムフォーム	✓	✓	✓	✓			✓

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

Note

サンプルラベル付けツールでは、BMP ファイル形式はサポートされていません。これは、Document Intelligence サービスではなくツールの制限です。

バージョンの移行

アプリケーションで Document Intelligence v3.0 を使用する方法については、Document Intelligence v3.1 移行ガイドに関する記事を参照してください

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

Document Intelligence サンプルラベル付けツールを使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

ドキュメント処理モデル

モデルの概要

モデル分析機能

モデルの詳細

OCR の読み取り

レイアウト分析

医療保険カード

米国税務書類

米国の住宅ローン ドキュメント

コントラクト

請求書

Receipt

身分証明書 (ID)

結婚証明書

クレジット カード

カスタム モデル

カスタム抽出

カスタム分類子

作成済みモデル

入力の要件

バージョンの移行

Layout

請求書

Receipt

身分証明書

名刺

Custom

作成済みカスタム モデル

モデル データの抽出

入力の要件

バージョンの移行

次のステップ

その他のリソース

米国の住宅ローンドキュメント

クレジットカード

カスタムモデル

作成済みカスタムモデル

モデルデータの抽出