Document Intelligence のカスタム ニューラル モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
- 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
- パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0
このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1
カスタム ニューラル モデルまたはニューラル モデルは、レイアウト機能と言語機能を組み合わせて、ドキュメントからラベル付きフィールドを正確に抽出するディープ ラーニング モデル型です。 基本カスタム ニューラル モデルはさまざまな種類のドキュメントを使用してトレーニングされているため、構造化、半構造化、非構造化ドキュメントからフィールドを抽出する目的でトレーニングするのに適しています。 カスタム ニューラル モデルは、v3.0 以降のモデルで使用できます 次の表に、各カテゴリの一般的なドキュメント型を示します:
ドキュメント | 例 |
---|---|
構造化 | 調査、アンケート |
半構造化 | 請求書、注文書 |
非構造化 | 契約書、レター |
カスタム ニューラル モデルでは、カスタム テンプレート モデルと同じラベル付けの形式と方針を共有します。 現在、カスタム ニューラル モデルでは、カスタム テンプレート モデルでサポートされているフィールドの種類の一部のみがサポートされています。
モデルの機能
重要
API バージョン 2024-02-29-preview
のカスタム ニューラル モデル以降では、重複するフィールドとテーブル セルの信頼度のサポートが追加されました。
現在、カスタム ニューラル モデルでは、キーと値のペア、選択マークのみがサポートされています。今後のリリースでは、構造化フィールド (テーブル) と署名のサポートが追加されます。
フォーム フィールド | 選択マーク | 表形式フィールド | 署名 | リージョン | 重複するフィールド |
---|---|---|---|---|---|
サポートされています | サポート対象 | サポートされています | サポートされていない | サポート対象 1 | サポート対象 2 |
1 カスタム ニューラル モデルのリージョン ラベルは、レイアウト API からの結果を指定したリージョンに使います。 この機能は、値が存在しない場合、トレーニング時にテキストが生成されるテンプレート モデルとは異なります。
2 重複するフィールドは、REST API バージョン 2024-02-29-preview
以降でサポートされています。 重複するフィールドには、いくつかの制限があります。 詳細については、「重複するフィールド」を "参照してください"。
ビルド モード
カスタム モデルのビルド操作で、テンプレート と ニューラル カスタム モデルをサポートします。 以前のバージョンの REST API とクライアント ライブラリでは、"テンプレート" モードと呼ばれる 1 つのビルド モードのみがサポートされていました。
ニューラル モデルでは、同じ情報を含んでいても、ページ構造が異なるドキュメントがサポートされます。 これらのドキュメントの例には、同じ情報を共有する米国 W2 フォームが含まれますが、企業によって外観が異なる場合があります。 詳細については、カスタム モデルのビルド モードに関するセクションを "参照してください"。
サポートされている言語とロケール
サポートされている言語の完全なリストについては、以下を 参照してください。 言語サポート—のカスタム モデル ページ。
重複するフィールド
API バージョン 2024-02-29-preview 以降のリリースでは、カスタム ニューラル モデルで重複するフィールドがサポートされます:
重複するフィールドを使用するには、データセットに、予想される重複を含むサンプルが少なくとも 1 つ含まれている必要があります。 重複にラベルを付ける場合は、領域のラベル付けを使用して、フィールドごとに (重複を含む) コンテンツの各範囲を指定します。 スタジオでは、フィールドを選択した状態で (値を強調表示して) 重複にラベルを付けることはできません。領域のラベル付けが、フィールドの重複を示す唯一のサポートされているラベル付けツールであるためです。 重複サポートには、以下が含まれます。
- 完全な重複。 2 つの異なるフィールドの同じトークン セットにラベルが付けられます。
- 部分的な重複。 いくつかのトークンは両方のフィールドに属していますが、どちらかのフィールドにのみ属しているトークンがあります。
重複するフィールドには、次のようないくつかの制限があります。
- トークンや単語は、2 つのフィールドとしてのみラベル付けできます。
- テーブル内の重複するフィールドは、テーブル行をまたぐことはできません。
- 重複するフィールドは、データセット内の少なくとも 1 つのサンプルに、それらのフィールドの重複ラベルが含まれている場合にのみ認識できます。
重複するフィールドを使用するには、データセットに重複のラベルを付けて、2024-02-29-preview
以降のバージョンの API でモデルをトレーニングします。
表形式フィールドでは、表、行、セル信頼度が追加されます
API バージョン 2022-06-30-preview 以降のリリースでは、カスタム ニューラル モデルで表形式フィールド (テーブル) がサポートされます。
- API バージョン 2022-08-31 以降でトレーニングされたモデルでは、表形式フィールド ラベルが許可されます。
- API バージョン 2022-06-30-preview 以降を使用してカスタム ニューラル モデルで分析されたドキュメントによって、すべてのテーブルで集計された表形式フィールドが生成されます。
- 結果は、分析操作の後に返される
analyzeResult
オブジェクトのdocuments
配列にあります。
表形式フィールドでは、既定でページ間テーブルがサポートされます。
- 複数のページにまたがるテーブルにラベルを付ける場合は、1 つのテーブル内のさまざまなページでそのテーブルの各行にラベルを付けます。
- ベスト プラクティスとして、データセットに予想されるバリエーションのサンプルがいくつか含まれていることを確認します。 たとえば、テーブル全体が 1 つのページ上にあり、テーブルが複数ページにまたがるサンプルを含めます。
表形式フィールドは、テーブルとして認識されないドキュメント内で繰り返し情報を抽出する場合にも便利です。 たとえば、履歴書の実務経験の繰り返しセクションにラベルを付け、表形式フィールドとして抽出できます。
2024-02-29-preview
API 以降、表形式フィールドでテーブル、行、およびセルの信頼度が提供されるようになりました:
固定または動的テーブルでは、次の要素に対する信頼度のサポートが追加されています。
- テーブルの信頼度。テーブル全体がどの程度正確に認識されるかを示す尺度です。
- 行の信頼度。個々の行の認識の尺度です。
- セルの信頼度。個々のセルの認識の尺度です。
推奨される方法は、最初にテーブルから始めて、次に行、そしてセルという順に、トップダウン方式で正確性を確認することです。
テーブル、行、セルの信頼度の詳細については、信頼度と正確性のスコアに関するページを参照してください。
サポートされているリージョン
2022 年 10 月 18 日の時点で、Document Intelligence のカスタム ニューラル モデル トレーニングは、今後通知があるまでは次の Azure リージョンでのみ利用可能になります。
- オーストラリア東部
- ブラジル南部
- カナダ中部
- インド中部
- 米国中部
- 東アジア
- 米国東部
- 米国東部 2
- フランス中部
- 東日本
- 米国中南部
- 東南アジア
- 英国南部
- 西ヨーロッパ
- 米国西部 2
- US Gov アリゾナ
- US Gov バージニア州
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
ヒント
一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。
モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。
入力の要件
最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
サポートされているファイル形式:
モデル PDF 画像:
jpeg/jpg、png、bmp、tiff、heifMicrosoft Office:
Word (docx)、Excel (xlsx)、PowerPoint (pptx)、HTML既読 ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview 以降) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム ニューラル ✔ ✔ ✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットで約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。
カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1GB
で、最大 10,000 ページです。
ベスト プラクティス
カスタム ニューラル モデルは、いくつかの点でカスタム テンプレート モデルとは異なります。 カスタム テンプレートまたはモデルは、ラベル付けされたデータを抽出するために一貫性のあるビジュアル テンプレートに依存しています。 カスタム ニューラル モデルでは、構造化、半構造化、および非構造化ドキュメントをサポートして、フィールドを抽出します。 2 つのモデルの種類から選択する場合、ニューラル モデルから開始して、それが機能的なニーズを満たすかどうかを判別するためにテストします。
バリエーションの処理
カスタム ニューラル モデルは、1 つのドキュメントの種類のさまざまな形式にまたがって一般化できます。 ベスト プラクティスとしては、ドキュメントの種類のすべてのバリエーションに対して 1 つのモデルを作成してください。 バリエーションごとに少なくとも 5 つのラベル付きサンプルを、トレーニング データセットに追加します。
フィールドの名前付け
データにラベルを付ける場合、値に関連するフィールドにラベルを付けると、抽出されたキーと値のペアの正確性が向上します。 たとえば、サプライヤー ID を含むフィールド値については、フィールドに supplier_id という名前を付けることを検討してください。 フィールド名は、ドキュメントの言語である必要があります。
隣接した値のラベル付け
1 つのフィールドの値トークン/単語は、次のいずれかである必要があります。
- 他のフィールドとインターリーブしない、自然な読み取り順序の連続したシーケンス内
- 他のどのフィールドもカバーしないリージョン内
代表的なデータ
トレーニング ケースにおける値は、多様かつ代表的である必要があります。 たとえば、フィールドに date という名前が付いている場合、このフィールドの値は日付である必要があります。 ランダムな文字列のような合成値は、モデルのパフォーマンスに影響を与える可能性があります。
現時点での制限事項
- カスタム ニューラル モデルでは、ページの境界を越えて分割された値は認識されません。
- カスタム テンプレート モデル用のラベルが付けられたデータセットを使用してカスタム ニューラル モデルをトレーニングする場合、カスタム ニューラルでサポートされていないフィールドの種類は無視されます。
- カスタム ニューラル モデルでは、ビルド操作は 1 か月あたり 20 回までに制限されています。 制限の引き上げが必要な場合は、サポート リクエストをオープンしてください。 詳細については、Document Intelligence サービスのクォータと制限に関するページを参照してください。
Training a model
カスタム ニューラル モデルは、v3.0 以降のモデルで使用できます。
ドキュメントの種類 | REST API | SDK | モデルのラベル付けとテスト |
---|---|---|---|
カスタム ドキュメント | Document Intelligence 3.1 | ドキュメント インテリジェンス SDK | Document Intelligence Studio |
モデルをトレーニングするビルド操作で新しい buildMode
プロパティがサポートされます。カスタム ニューラル モデルをトレーニングするには、buildMode
を neural
に設定します。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
次の手順
カスタム モデルの作成について学習します。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示