Document Intelligence コントラクト モデル
重要
- Document Intelligence パブリック プレビュー リリースは、開発中の機能への早期アクセスを提供します。
- 機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
- Document Intelligence クライアント ライブラリのパブリック プレビュー バージョンは、REST API バージョン2024-02-29-preview にデフォルトで設定されます。
- パブリック プレビュー バージョン 2024-02-29-preview は、現在、次の Azure リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA)
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー)
Document Intelligence コントラクト モデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクト エンティティの選択したグループから主要なフィールドと明細を分析および抽出します。 電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメント テキストを分析します。 このモデルでは現在、英語のドキュメント形式がサポートされています。
契約の自動処理
契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。 これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。 契約書からキー データを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。
開発オプション
Document Intelligence v4.0 (2024-02-29-preview) では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
ドキュメント インテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています:
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:
機能 | リソース | モデル ID |
---|---|---|
コントラクト モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
事前構築済みコントラクト |
入力の要件
最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
サポートされているファイル形式:
モデル PDF 画像:
JPEG/JPG、PNG、BMP、TIFF、HEIFMicrosoft Office:
Word (DOCX)、Excel (XLS)、PowerPoint (PPT)、HTML既読 ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview、2023-10-31-preview) 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム抽出 ✔ ✔ カスタム分類 ✔ ✔ ✔ (2024-02-29-preview) PDF および TIFF の場合、最大 2000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 x 50 ピクセルから 10,000 x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1GB です。
カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1GB
で、最大 10,000 ページです。
コントラクト ドキュメントのデータ抽出を試す
顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。
Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
Document Intelligence Studio
Document Intelligence Studio ホーム ページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:
サポートされている言語とロケール
以下の参照、サポートされている言語の完全なリストについては、 語サポート—の事前構築済みモデル ページをご覧ください。
フィールドの抽出
JSON 出力応答で契約書から抽出されたフィールドを次に示します。
名前 | 種類 | 説明 | 出力例 |
---|---|---|---|
Title | String | 契約書のタイトル | サービス契約 |
ContractId | String | 契約書のタイトル | AB12956 |
パーティー | Array | 法律関係者の一覧 | |
ExecutionDate | 日付 | すべての当事者がすべての契約に署名し、合意した日付 | On this twenty-third day of February two thousand and twenty two |
ExpirationDate | 日付 | 契約が終了して効力を発する日付 | 1 年 |
RenewalDate | 日付 | 契約を更新する必要がある日付 | On this twenty-third day of February two thousand and twenty two |
管轄区域 | Array | 管轄区域の一覧 |
抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults
セクションにあります。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示