Document Intelligence コントラクトモデル

2024-12-14

このコンテンツの適用対象: v4.0 (GA) | 以前のバージョン: v3.1 (GA) :::moniker-end

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (GA)

Document Intelligence コントラクトモデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクトエンティティの選択したグループから主要なフィールドと明細を分析および抽出します。電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメントテキストを分析します。このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。契約書からキーデータを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0: 2024-11-30 (GA) では、以下のツール、アプリケーション、ライブラリがサポートされています。

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	事前構築済みコントラクト

入力の要件

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

コントラクトドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。以下のリソースが必要です。

Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

Document Intelligence Studio ホームページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

Document Intelligence Studio を試す

サポートされている言語とロケール

サポートされているすべての言語のリストについては、言語サポート - 事前構築済みモデルに関するページを "参照してください"。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプルリポジトリのコントラクトモデルスキーマに関するページを "参照してください"。
抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。

次の方法で共有

Document Intelligence コントラクト モデル