次の方法で共有


ドキュメント フィールド抽出 - カスタム生成 AI モデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンの既定値は REST API バージョン 2024-07-31-preview であり、現在は次の Azure リージョンでのみ使用できます。
    • 米国東部
    • 米国中北部

ドキュメント フィールド抽出 (カスタム生成 AI) モデルは、生成 AI を利用して、さまざまなビジュアル テンプレートのドキュメントからユーザー指定のフィールドを抽出します。 カスタム生成 AI モデルは、大規模言語モデル (LLM) による文書理解の力と、カスタム抽出機能による厳格さとスキーマを組み合わせて、数分で高い正確性のモデルを作成します。 この生成モデルの種類を使用すると、1 つのドキュメントから始めて、最小限のラベル付けでスキーマの追加とモデルの作成プロセスを実行できます。 開発者と企業はカスタム生成モデルを使用すると、あらゆる種類のドキュメントに対して、より高い正確性と速度でデータ抽出ワークフローを簡単に自動化できます。 カスタム生成 AI モデルは、ラベル付きサンプルのないドキュメントから単純なフィールドを抽出する場合に優れています。 ただし、いくつかのラベル付きサンプルを用意すると、テーブルなどの複雑なフィールドやユーザー定義フィールドの抽出の正確性が向上します。 REST API またはクライアント ライブラリを使用して、モデル構築による分析のドキュメントを送信し、カスタム生成プロセスを使用できます。

カスタム生成 AI モデルの利点

  • 自動ラベル付け。 大規模言語モデル (LLM) を利用し、さまざまなドキュメントの種類やビジュアル テンプレートのユーザー指定のフィールドを抽出します。

  • 汎化の改善。 非構造化データとさまざまなドキュメント テンプレートから、より高い正確性でデータを抽出します。

  • グラウンディングされた結果。 ドキュメント内で抽出されたデータをローカライズします。 カスタム生成モデルは、該当する場合は結果を根拠にしてコンテンツから確実に応答を生成し、人によるレビュー ワークフローを可能にします。

  • 信頼度スコア。 抽出された各フィールドの信頼スコアを使用して、高品質の抽出データをフィルター処理し、ドキュメントのストレート スルー処理を最大化し、人によるレビューのコストを最小限に抑えます。

一般的なユース ケース

  • 契約のライフサイクル管理。 生成モデルを構築し、さまざまな契約からフィールド、条項、義務を抽出します。

  • ローンと住宅ローンの申請。 ローンと住宅ローンの申請プロセスの自動化により、銀行、貸し手、政府機関はローンと住宅ローンの申請を迅速に処理できるようになります。

  • 金融サービス。 カスタム生成 AI モデルを使用して、財務報告書や資産管理レポートなどの複雑なドキュメントを分析します。

  • 経費管理。 経費を検証するには、さまざまな小売業者や企業からの領収書と請求書を解析する必要があります。 カスタム生成 AI モデルでは、さまざまなテンプレートを使用して、さまざまな形式やドキュメントの経費を抽出できます。

トレーニング データセットの管理

他のカスタム モデルでは、データセットを維持し、新しいサンプルを追加し、正確性を高めるためにモデルをトレーニングする必要があります。 カスタム生成 AI モデルを使用すると、ラベル付きドキュメントが変換され、暗号化され、モデルの一部として保存されます。 このプロセスにより、モデルはラベル付きサンプルを継続的に使用して抽出品質を向上させることができます。 他のカスタム モデルと同様に、モデルは Microsoft ストレージに保存され、いつでも削除できます。

Document Intelligence サービスを使用してデータセットを管理できますが、ドキュメントは暗号化されて保存され、特定のモデルのモデル結果を改善するためにのみ使用されます。 サービスマネージド キーを使用してデータを暗号化することや、必要に応じてカスタマー マネージド キーを使用して暗号化することができます。 データセットの管理とライフサイクルの変更は、カスタム生成モデルにのみ適用されます。

モデルの機能

フィールド抽出カスタム生成モデルは、現在、2024-07-31-preview と次のフィールドを含む動的テーブルをサポートしています。

フォーム フィールド 選択マーク 表形式フィールド シグネチャ 領域のラベル付け 重複するフィールド
サポートされています サポート対象 サポートされています サポートされていない サポートされていない サポートされています

ビルド モード

build custom model 操作は、カスタムのテンプレートニューラル生成モデルをサポートしています。カスタム モデルのビルド モードに関する記事を参照してください。 モデルの種類の違いは次のとおりです。

  • カスタム生成 AI モデルを使用すると、さまざまな形式、さまざまなテンプレート、非構造化データの複雑なドキュメントを処理できます。

  • カスタム ニューラル モデルは、複雑なドキュメント処理をサポートしており、構造化および半構造化ドキュメントのページにある多数のばらつきもサポートしています。

  • カスタム テンプレート モデルは、アンケートや申請書などの一貫性のあるビジュアル テンプレートを利用して、ラベル付けされたデータを抽出します。

言語とロケールのサポート

フィールド抽出カスタム生成モデル 2024-07-31-preview バージョンは、en-us ロケールをサポートしています。 言語サポートの詳細については、「言語サポート: カスタム モデル」を参照してください。

リージョンのサポート

フィールド抽出カスタム生成モデル 2024-07-31-preview バージョンは、米国東部と North Central US でのみ使用できます。  

入力の要件

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    読み込み
    Layout ✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-07-31-preview、2024-02-29-preview)
  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。

ベスト プラクティス

  • 代表的なデータ。 実際のデータ分布を対象とした代表的なドキュメントを使用し、高品質のカスタム生成モデルをトレーニングします。 たとえば、対象ドキュメントに部分的に入力された表形式のフィールドが含まれている場合は、部分的に入力された表で構成されるトレーニング ドキュメントを追加します。 または、フィールドの名前が日付である場合、ランダムな文字列がモデルのパフォーマンスに影響を与える可能性があるため、このフィールドの値は日付にする必要があります。

  • フィールドの名前付け。 フィールド値を表す正確なフィールド名を選択します。 たとえば、取引日を含むフィールド値の場合、フィールドには Date1 ではなく TransactionDate という名前を付けることを検討してください。

  • フィールドの説明。 説明にコンテキスト情報を追加して、抽出する必要があるフィールドを明確にします。 たとえば、ドキュメント内の場所、関連付けられている可能性のあるフィールド ラベル、あいまいな可能性のある他の用語と区別する方法などです。

  • バリエーション。 カスタム生成モデルを使用すると、同じドキュメントの種類のさまざまなドキュメント テンプレートにわたって汎化できます。 ベスト プラクティスとしては、ドキュメントの種類のすべてのバリエーションに対して 1 つのモデルを作成してください。 ドキュメントの生成または処理におけるモデルの正確性と整合性を強化するには、種類ごとに (特に特定の書式設定や構造要素を必要とするもの) ビジュアル テンプレートを含めます。

サービス ガイダンス

  • カスタム生成プレビュー モデルは、現在、固定テーブルとシグネチャの抽出をサポートしていません。

  • 同じドキュメントに対する推論により、呼び出しごとにわずかに異なる結果が得られる可能性があります。これは現在の GPT モデルの既知の制限事項です。

  • 各フィールドの信頼度スコアは異なる場合があります。 代表的なデータを使用してテストし、シナリオの信頼度しきい値を確立することをお勧めします。

  • 特に表形式のフィールドの場合、グラウンディングは困難であり、場合によっては完璧ではない可能性があります。

  • 大規模なドキュメントの待機時間は長く、プレビュー段階の既知の制限事項です。

  • 作成されたモデルはカスタム生成抽出をサポートしていません。

Training a model

カスタム生成モデルは、2024-07-31-preview バージョン以降のモデルで使用できます。

モデルをトレーニングする build operationbuildMode プロパティをサポートしています。カスタム生成モデルをトレーニングするには、buildModegenerative に設定します。


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

次のステップ