Document Intelligence の一般的なドキュメントモデル

[アーティクル]
03/06/2024

重要

Document Intelligence バージョン 2024-02-29-preview、2023-10-31-preview 以降、一般的なドキュメントモデル (事前構築済みドキュメント) は非推奨となりました。ドキュメントからキーと値のペア、選択マーク、テキスト、テーブル、構造を抽出するには、次のモデルを使用してください。

機能	version	モデル ID
オプションのクエリ文字列パラメータ `features=keyValuePairs` が有効になっている `Layout` モデル。	• v4:2024-02-29-preview • v3.1:2023-07-31 (GA)	`prebuilt-layout`
一般的なドキュメントモデル	• v3.1:2023-07-31 (GA) >v3.0:2022-08-31 (GA) >v2.1 (GA)	`prebuilt-document`

このコンテンツの対象:v3.1 (GA) | 最新バージョン:v4.0 (プレビュー) | 以前のバージョン: v3.0

このコンテンツの対象:v3.0 (GA) | 最新バージョン:v4.0 (プレビュー)v3.1

一般ドキュメントモデルでは、強力な光学式文字認識 (OCR) 機能とディープラーニングモデルを組み合わせて、ドキュメントからキーと値のペア、テーブル、および選択マークを抽出します。一般的なドキュメントは、v3.1 および v3.0 API で入手できます。詳細については、 参照してこちらの移行ガイドをご覧ください。

一般ドキュメント機能

一般ドキュメントモデルは事前トレーニング済みモデルであり、ラベルやトレーニングは必要ありません。
1 つの API を使用して、ドキュメントからキーと値のペア、選択マーク、テキスト、テーブル、構造が抽出されます。
一般ドキュメントモデルでは、構造化ドキュメント、半構造化ドキュメント、非構造化ドキュメントがサポートされています。
選択マークは、値 :selected: または :unselected: をもつフィールドとして識別されます。

Document Intelligence Studio を使用して処理されたサンプルドキュメント

Document Intelligence Studio での一般ドキュメント分析のスクリーンショット。

キーと値のペアの抽出

一般ドキュメントの API では、ほとんどの種類のフォームがサポートされており、ドキュメントを解析して、キーと関連する値を抽出します。これは、ドキュメントから一般的なキーと値のペアを抽出する場合に最適です。一般ドキュメントモデルは、ラベルなしのカスタムモデルのトレーニングの代わりに使用できます。

開発オプション

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
一般的なドキュメントモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みドキュメント

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
一般的なドキュメントモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みドキュメント

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

一般ドキュメントモデルのデータ抽出

Document Intelligence Studio を使用して、フォームやドキュメントからデータを抽出してみてください。

以下のリソースが必要です。

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Note

Document Intelligence Studio と一般ドキュメントモデルは、v3.0 API で使用できます。

Document Intelligence Studio ホームページで、[一般ドキュメント] を選択します。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

キー/値ペア

キーと値のペアは、ラベルまたはキーとそれに関連付けられている応答または値を識別する、ドキュメント内の特定の範囲です。構造化されたフォームでは、これらのペアは、ラベルと、ユーザーがそのフィールドに入力した値である可能性があります。非構造化ドキュメントでは、段落内のテキストに基づいて契約が実行された日付である可能性があります。さまざまなドキュメントの種類、形式、構造に基づいて、識別可能なキーと値を抽出するために、AI モデルがトレーニングされています。

モデルによってキーの存在が検出されても、関連する値がない場合や、省略可能なフィールドの処理では、キーが単独で存在する可能性もあります。たとえば、一部のインスタンスでは、フォームのミドルネームフィールドを空白のままにすることができます。キーと値のペアは、常に、ドキュメントに含まれるテキストの範囲です。 "顧客" と "ユーザー" など、同じ値が異なる方法で記述されるドキュメントの場合、関連付けられているキーは、(コンテキストに基づき) 顧客またはユーザーのいずれかです。

データの抽出

Model	テキストの抽出	キーと値のペア	選択マーク	テーブル	共通名
一般ドキュメント	✓	✓	✓	✓	✓*

✓* - 2023-07-31 (v3.1 GA) 以降の API バージョンでのみ使用できます。

サポートされている言語とロケール

以下を参照として、サポートされている言語の完全なリストについては、言語サポート—ドキュメント解析モデルページを見てください。

考慮事項

キーはドキュメントから抽出されたテキストの範囲であるため、半構造化ドキュメントの場合、キーの既存のディクショナリにキーをマップすることが必要な場合があります。
キーだけがあって値のないキーと値のペアがあることを想定してください。たとえば、ユーザーがフォームでメールアドレスを提供しないことを選択したような場合です。

次のステップ

Document Intelligence v3.1 移行ガイドに従って、アプリケーションとワークフローで v3.1 バージョンを使用する方法について説明します。
REST API を調べます。

Document Intelligence Studio を試す

Document Intelligence の一般的なドキュメント モデル