Document Intelligence コントラクトモデル

[アーティクル]
05/23/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。
機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
パブリックプレビューバージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
米国東部
米国西部 2
"西ヨーロッパ"

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー)

Document Intelligence コントラクトモデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクトエンティティの選択したグループから主要なフィールドと明細を分析および抽出します。電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメントテキストを分析します。このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。契約書からキーデータを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0 (2024-02-29-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

入力の要件

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

サポートされているファイル形式:

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office: Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML
既読	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-02-29-preview)

PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1GB で、最大 10,000 ページです。

コントラクトドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。以下のリソースが必要です。

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

Document Intelligence Studio ホームページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

Document Intelligence Studio を試す

サポートされている言語とロケール

以下の参照、サポートされている言語の完全なリストについては、語サポート—の事前構築済みモデルページをご覧ください。

フィールドの抽出

JSON 出力応答で契約書から抽出されたフィールドを次に示します。

名前	種類	説明	出力例
Title	String	契約書のタイトル	サービス契約
ContractId	String	契約書のタイトル	AB12956
パーティー	Array	法律関係者の一覧
ExecutionDate	日付	すべての当事者がすべての契約に署名し、合意した日付	`On this twenty-third day of February two thousand and twenty two`
ExpirationDate	日付	契約が終了して効力を発する日付	1 年
RenewalDate	日付	契約を更新する必要がある日付	`On this twenty-third day of February two thousand and twenty two`
管轄区域	Array	管轄区域の一覧

抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

次の方法で共有

Document Intelligence コントラクトモデル

契約の自動処理

開発オプション

入力の要件

コントラクトドキュメントのデータ抽出を試す

Document Intelligence Studio

サポートされている言語とロケール

フィールドの抽出

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

Document Intelligence コントラクト モデル

契約の自動処理

開発オプション

入力の要件

コントラクト ドキュメントのデータ抽出を試す

Document Intelligence Studio

サポートされている言語とロケール

フィールドの抽出

次のステップ

フィードバック

フィードバック

その他のリソース

Document Intelligence コントラクトモデル

コントラクトドキュメントのデータ抽出を試す