Document Intelligence のカスタムニューラルモデル

[アーティクル]
03/12/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。
機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
パブリックプレビューバージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
米国東部
米国西部 2
"西ヨーロッパ"

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)v3.0 (GA)

このコンテンツの適用対象:v3.1 (GA) | 最新のバージョン:v4.0 (プレビュー) | 以前のバージョン:v3.0

このコンテンツの対象:v3.0 (GA) | 最新バージョン:v4.0 (プレビュー)v3.1

カスタムニューラルモデルまたはニューラルモデルは、レイアウト機能と言語機能を組み合わせて、ドキュメントからラベル付きフィールドを正確に抽出するディープラーニングモデル型です。基本カスタムニューラルモデルはさまざまな種類のドキュメントを使用してトレーニングされているため、構造化、半構造化、非構造化ドキュメントからフィールドを抽出する目的でトレーニングするのに適しています。カスタムニューラルモデルは、v3.0 以降のモデルで使用できます次の表に、各カテゴリの一般的なドキュメント型を示します：

ドキュメント	例
構造化	調査、アンケート
半構造化	請求書、注文書
非構造化	契約書、レター

カスタムニューラルモデルでは、カスタムテンプレートモデルと同じラベル付けの形式と方針を共有します。現在、カスタムニューラルモデルでは、カスタムテンプレートモデルでサポートされているフィールドの種類の一部のみがサポートされています。

モデルの機能

重要

API バージョン 2024-02-29-preview のカスタムニューラルモデル以降では、重複するフィールドとテーブルセルの信頼度のサポートが追加されました。

現在、カスタムニューラルモデルでは、キーと値のペア、選択マークのみがサポートされています。今後のリリースでは、構造化フィールド (テーブル) と署名のサポートが追加されます。

フォームフィールド	選択マーク	表形式フィールド	署名	リージョン	重複するフィールド
サポートされています	サポート対象	サポートされています	サポートされていない	サポート対象 ¹	サポート対象 ²

¹ カスタムニューラルモデルのリージョンラベルは、レイアウト API からの結果を指定したリージョンに使います。この機能は、値が存在しない場合、トレーニング時にテキストが生成されるテンプレートモデルとは異なります。 ² 重複するフィールドは、REST API バージョン 2024-02-29-preview 以降でサポートされています。重複するフィールドには、いくつかの制限があります。詳細については、「重複するフィールド」を "参照してください"。

ビルドモード

カスタムモデルのビルド操作で、テンプレート と ニューラル カスタムモデルをサポートします。以前のバージョンの REST API とクライアントライブラリでは、"テンプレート" モードと呼ばれる 1 つのビルドモードのみがサポートされていました。

ニューラルモデルでは、同じ情報を含んでいても、ページ構造が異なるドキュメントがサポートされます。これらのドキュメントの例には、同じ情報を共有する米国 W2 フォームが含まれますが、企業によって外観が異なる場合があります。詳しくは、カスタムモデルのビルドモードに関する記事をご覧ください。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、以下を 参照してください。言語サポート—のカスタムモデルページ。

重複するフィールド

API バージョン 2024-02-29-preview 以降のリリースでは、カスタムニューラルモデルで重複するフィールドがサポートされます:

重複するフィールドを使用するには、データセットに、予想される重複を含むサンプルが少なくとも 1 つ含まれている必要があります。重複にラベルを付ける場合は、領域のラベル付けを使用して、フィールドごとに (重複を含む) コンテンツの各範囲を指定します。スタジオでは、フィールドを選択した状態で (値を強調表示して) 重複にラベルを付けることはできません。領域のラベル付けが、フィールドの重複を示す唯一のサポートされているラベル付けツールであるためです。重複サポートには、以下が含まれます。

完全な重複。 2 つの異なるフィールドの同じトークンセットにラベルが付けられます。
部分的な重複。いくつかのトークンは両方のフィールドに属していますが、どちらかのフィールドにのみ属しているトークンがあります。

重複するフィールドには、次のようないくつかの制限があります。

トークンや単語は、2 つのフィールドとしてのみラベル付けできます。
テーブル内の重複するフィールドは、テーブル行をまたぐことはできません。
重複するフィールドは、データセット内の少なくとも 1 つのサンプルに、それらのフィールドの重複ラベルが含まれている場合にのみ認識できます。

重複するフィールドを使用するには、データセットに重複のラベルを付けて、2024-02-29-preview 以降のバージョンの API でモデルをトレーニングします。

表形式フィールドでは、表、行、セル信頼度が追加されます

API バージョン 2022-06-30-preview 以降のリリースでは、カスタムニューラルモデルで表形式フィールド (テーブル) がサポートされます。

API バージョン 2022-08-31 以降でトレーニングされたモデルでは、表形式フィールドラベルが許可されます。
API バージョン 2022-06-30-preview 以降を使用してカスタムニューラルモデルで分析されたドキュメントによって、すべてのテーブルで集計された表形式フィールドが生成されます。
結果は、分析操作の後に返される analyzeResult オブジェクトの documents 配列にあります。

表形式フィールドでは、既定でページ間テーブルがサポートされます。

複数のページにまたがるテーブルにラベルを付ける場合は、1 つのテーブル内のさまざまなページでそのテーブルの各行にラベルを付けます。
ベストプラクティスとして、データセットに予想されるバリエーションのサンプルがいくつか含まれていることを確認します。たとえば、テーブル全体が 1 つのページ上にあり、テーブルが複数ページにまたがるサンプルを含めます。

表形式フィールドは、テーブルとして認識されないドキュメント内で繰り返し情報を抽出する場合にも便利です。たとえば、履歴書の実務経験の繰り返しセクションにラベルを付け、表形式フィールドとして抽出できます。

2024-02-29-preview API 以降、表形式フィールドでテーブル、行、およびセルの信頼度が提供されるようになりました:

固定または動的テーブルでは、次の要素に対する信頼度のサポートが追加されています。
- テーブルの信頼度。テーブル全体がどの程度正確に認識されるかを示す尺度です。
- 行の信頼度。個々の行の認識の尺度です。
- セルの信頼度。個々のセルの認識の尺度です。
推奨される方法は、最初にテーブルから始めて、次に行、そしてセルという順に、トップダウン方式で正確性を確認することです。

テーブル、行、セルの信頼度の詳細については、信頼度と正確性のスコアに関するページを参照してください。

サポートされているリージョン

2022 年 10 月 18 日の時点で、Document Intelligence のカスタムニューラルモデルトレーニングは、今後通知があるまでは次の Azure リージョンでのみ利用可能になります。

オーストラリア東部
ブラジル南部
カナダ中部
インド中部
米国中部
東アジア
米国東部
米国東部 2
フランス中部
東日本
米国中南部
東南アジア
英国南部
西ヨーロッパ
米国西部 2
US Gov アリゾナ
US Gov バージニア州

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

ヒント

一部のリージョンのいずれかでトレーニングしたモデルを他のリージョンにコピーして、適宜使用することができます。

モデルを別のリージョンにコピーするには、REST API または Document Intelligence Studio を使用します。

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: jpeg/jpg、png、bmp、tiff、heif	Microsoft Office: Word (docx)、Excel (xlsx)、PowerPoint (pptx)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview 以降)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタムニューラル	✔	✔

✱ 現在、Microsoft Office ファイルは他のモデルやバージョンではサポートされません。

PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、1 インチあたり 150 ドットで約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

ベストプラクティス

カスタムニューラルモデルは、いくつかの点でカスタムテンプレートモデルとは異なります。カスタムテンプレートまたはモデルは、ラベル付けされたデータを抽出するために一貫性のあるビジュアルテンプレートに依存しています。カスタムニューラルモデルでは、構造化、半構造化、および非構造化ドキュメントをサポートして、フィールドを抽出します。 2 つのモデルの種類から選択する場合、ニューラルモデルから開始して、それが機能的なニーズを満たすかどうかを判別するためにテストします。

バリエーションの処理

カスタムニューラルモデルは、1 つのドキュメントの種類のさまざまな形式にまたがって一般化できます。ベストプラクティスとしては、ドキュメントの種類のすべてのバリエーションに対して 1 つのモデルを作成してください。バリエーションごとに少なくとも 5 つのラベル付きサンプルを、トレーニングデータセットに追加します。

フィールドの名前付け

データにラベルを付ける場合、値に関連するフィールドにラベルを付けると、抽出されたキーと値のペアの正確性が向上します。たとえば、サプライヤー ID を含むフィールド値については、フィールドに supplier_id という名前を付けることを検討してください。フィールド名は、ドキュメントの言語である必要があります。

隣接した値のラベル付け

1 つのフィールドの値トークン/単語は、次のいずれかである必要があります。

他のフィールドとインターリーブしない、自然な読み取り順序の連続したシーケンス内
他のどのフィールドもカバーしないリージョン内

代表的なデータ

トレーニングケースにおける値は、多様かつ代表的である必要があります。たとえば、フィールドに date という名前が付いている場合、このフィールドの値は日付である必要があります。ランダムな文字列のような合成値は、モデルのパフォーマンスに影響を与える可能性があります。

現時点での制限事項

カスタムニューラルモデルでは、ページの境界を越えて分割された値は認識されません。
カスタムテンプレートモデル用のラベルが付けられたデータセットを使用してカスタムニューラルモデルをトレーニングする場合、カスタムニューラルでサポートされていないフィールドの種類は無視されます。
カスタムニューラルモデルでは、ビルド操作は 1 か月あたり 20 回までに制限されています。制限の引き上げが必要な場合は、サポートリクエストをオープンしてください。詳細については、Document Intelligence サービスのクォータと制限に関するページを参照してください。

Training a model

カスタムニューラルモデルは、v3.0 以降のモデルで使用できます。

ドキュメントの種類	REST API	SDK	モデルのラベル付けとテスト
カスタムドキュメント	Document Intelligence 3.1	ドキュメントインテリジェンス SDK	Document Intelligence Studio

モデルをトレーニングするビルド操作で新しい buildMode プロパティがサポートされます。カスタムニューラルモデルをトレーニングするには、buildMode を neural に設定します。

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

次の手順

カスタムモデルの作成について学習します。

カスタムモデルを作成するカスタムモデルを作成する

Document Intelligence のカスタム ニューラル モデル

モデルの機能

ビルド モード

サポートされている言語とロケール

重複するフィールド

表形式フィールドでは、表、行、セル信頼度が追加されます

サポートされているリージョン

入力の要件

ベスト プラクティス

バリエーションの処理

フィールドの名前付け

隣接した値のラベル付け

代表的なデータ

現時点での制限事項

Training a model

次の手順

その他のリソース

Document Intelligence のカスタムニューラルモデル

ビルドモード

ベストプラクティス