Share via


Document Intelligence コントラクト モデル

重要

  • Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
  • 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
  • Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
  • パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
  • 米国東部
  • 米国西部 2
  • "西ヨーロッパ"

このコンテンツの対象:checkmarkv4.0 (プレビュー) | 以前のバージョン:青のチェックマークv3.1 (GA)

このコンテンツの対象:checkmarkv3.1 (GA) | 最新バージョン:紫のチェックマークv4.0 (プレビュー)

Document Intelligence コントラクト モデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクト エンティティの選択したグループから主要なフィールドと明細を分析および抽出します。 電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメント テキストを分析します。 このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。 これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。 契約書からキー データを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0 (2024-02-29-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築済みコントラクト

ドキュメント インテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています:

機能 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築済みコントラクト

ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:

機能 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
事前構築済みコントラクト

入力の要件

  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
    既読
    Layout ✔ (2024-02-29-preview、2023-10-31-preview)
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類 ✔ (2024-02-29-preview)
  • PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1GB で、最大 10,000 ページです。

コントラクト ドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

  1. Document Intelligence Studio ホーム ページで、[税務書類] を選択します。

  2. サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。

  3. 分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

サポートされている言語とロケール

以下の参照、サポートされている言語の完全なリストについては、 語サポート—の事前構築済みモデル ページをご覧ください。

フィールドの抽出

JSON 出力応答で契約書から抽出されたフィールドを次に示します。

名前 種類 説明 出力例
Title String 契約書のタイトル サービス契約
ContractId String 契約書のタイトル AB12956
パーティー Array 法律関係者の一覧
ExecutionDate 日付 すべての当事者がすべての契約に署名し、合意した日付 On this twenty-third day of February two thousand and twenty two
ExpirationDate 日付 契約が終了して効力を発する日付 1 年
RenewalDate 日付 契約を更新する必要がある日付 On this twenty-third day of February two thousand and twenty two
管轄区域 Array 管轄区域の一覧

抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ