ドキュメント処理に適した Foundry ツール (ドキュメント インテリジェンス、Content Understanding、または Foundry モデル) を選択する

重要

プレビューAPIのバージョン 2024-12-01-preview および 2025-05-01-preview は2026年7月15日までに廃止されます。 まだプレビューAPIを使っているなら、最新のAPIバージョン 2025-11-01 (GA)をターゲットにコードを更新してください。

APIのバージョン 2024-12-01-preview2025-05-01-preview はパブリックプレビュー中です。 これらのプレビューはサービスレベル契約なしで提供されており、本番ワークロードには推奨されません。 詳細については、Microsoft Azureプレビュー補足利用規約およびMicrosoft製品およびサービスデータ保護付録(「DPA」)をご参照ください。

組織では、ドキュメントと非構造化データを管理するために Generative AI を使用する傾向が高まっていますが、堅牢でセキュリティで保護されたスケーラブルなドキュメント処理ワークフローを構築するための適切なツールを選択することが不可欠です。 これは、インテリジェント ドキュメント処理 (IDP) 用の主要なAzure AI ソリューションの比較概要であり、ビジネス要件に最も効果的なアプローチを評価して選択するのに役立ちます。 この記事では、次のオプションを比較します。

  • Azure Foundry Tools のドキュメント インテリジェンス: 業界をリードする OCR と実証済みの精度でドキュメントからテキスト、テーブル、構造化フィールドを抽出するための信頼できるサービスです。
  • Azure Foundry Tools の Content Understanding: 業界をリードするコンテンツ抽出 (OCR や音声テキスト変換など)、ドキュメント、画像、オーディオ、ビデオのマルチモーダル処理、複雑なフィールド抽出のための生成 AI 機能を備えたマルチモーダル サービス。
  • Azureホストされる LLM (Azure Foundry モデル): モデル、プロンプト、ワークフローを最大限に制御してカスタム AI ソリューションを構築するための柔軟なプラットフォーム。

サービスの概要

利用可能な 3 つのサービスの概要を次に示します。

サービス 何を実行するか 理想的な用途 強み コア機能
ドキュメント インテリジェンス ドキュメントからテキスト、キー-バリューペア、テーブル、レイアウト(構造)を抽出し、グラウンディングを用いたフィールド抽出、信頼度推定、分類と分割のサポートを提供します。 標準フォーム、請求書、領収書、発注書、ID、契約、法的書類 多くのテンプレートドキュメントタイプに対して、実証済みの高精度抽出、一貫性、信頼度スコアとグラウンディング、定義済みのスキーマ OCR/読み取り/レイアウト モデル、事前構築済みモデル (請求書、税金、領収書など)、カスタム モデル (フィールドの抽出と分類)
コンテンツ理解 ドキュメント、画像、オーディオ、ビデオを処理します。高度なフィールド抽出と推論、検証、エンリッチメント、後処理の組み込みサポート、複雑なタスクの統合された推論 (プレビュー) 抽出フィールドと推論フィールドを必要とする複雑なドキュメント処理、多数の複雑なバリエーションまたは本当に非構造化ドキュメントを含むドキュメント形式、メタデータの推論、要約、生成 マルチモーダル入力用の組み込みの統合プロセス。ラベル付けなしで開始します。 さまざまなテンプレートと非構造化ドキュメントを処理し、ラベル付けされたサンプルによる継続的な改善をサポートします コンテンツ抽出 (OCR、レイアウト)、フィールド抽出、推論フィールドと分類のサポートが強化され、バリエーションの多い大規模なドキュメントに取り組み、品質と価格を制御できるように Gen AI モデルを構成します。
Azure OpenAI Serviceを使用して独自のソリューションを構築する Azureホスト型 LLM モデルを使用してソリューションを構築し、モデル、プロンプト、ツールを完全に制御する モデル、コスト、プロンプトをきめ細かく制御する必要があるソリューションの構築、所有、管理を目指す開発者 最大限の柔軟性と制御 モデルの選択、プロンプトのチューニング、各コンポーネントの構築における完全な柔軟性を備えたワークフロー定義をプラグ アンド プレイするための複数のオプション。 モデルのアップグレード、品質、信頼性にエンジニアリング投資が必要です。

Azure ドキュメント インテリジェンス

ドキュメント インテリジェンスは、ドキュメント中心の多くのシナリオで信頼できる選択肢です。 テーブル認識、図、段落、選択マーク、セクションなど、業界をリードする OCR 機能と構造抽出を提供し、RAG インジェスト、フィールド抽出、およびドキュメント チャット シナリオで LLM と簡単に統合できるように、Markdown 形式のすべての出力を提供します。

ドキュメント インテリジェンスには、分類と条件付きルーティングを使用してスケーラブルで柔軟な IDP ソリューションを構築するためのツールがあり、請求書、領収書、税フォーム、ID カードなどの事前構築済みモデルから高精度に抽出できます。 任意のカスタム テンプレートについて、いくつかのサンプルにラベルを付けて、任意のドキュメントの種類でカスタム抽出モデルをトレーニングできます。 ドキュメント インテリジェンス モデルには、結果の抽出のみをサポートする、多くのテンプレート バリエーションにわたるカスタム モデルの限られた一般化、セマンティック理解機能の制限など、いくつかの制限があります。 信頼度スコアと接地された結果を使用すると、ほとんどのシナリオで効果的で短い待機時間で一貫した抽出ドキュメント処理ソリューションを構築できます。 ドキュメント インテリジェンスには、次のモデルが用意されています。

  • ドキュメントのデジタル化または 光学式文字認識 (OCR) を使用して、ドキュメントから印刷または手書きのテキストを抽出します。

  • レイアウトを使用したドキュメント構造の抽出。OCR と共にテーブル、選択マーク、セクション、およびドキュメント構造を抽出します。

  • 複数のドキュメントを正確に識別、分割、分類するためのドキュメント分類。

  • 税、住宅ローン、銀行小切手、請求書、領収書、ID などのバリエーションの高いフォーム、独自のモデルのラベル付けとトレーニングを行うカスタム モデルなど、標準のドキュメントの種類からの定義済みのスキーマ抽出用の事前構築済みモデルを使用したドキュメント フィールド抽出。

Azure コンテンツ理解

Azure Content Understanding は、ドキュメント インテリジェンスと同じ基本機能に基づいて構築され、ドキュメント シナリオを画像や埋め込みコンテンツに拡張し、オーディオとビデオを使用したマルチモーダル シナリオに拡張します。 Content Understanding は、Generateive AI を使用したコンテンツ処理用に構築されており、推論されたフィールド、エンリッチメント、検証、推論を使用して必要な特定の出力を生成する機能が向上します。

Content Understanding は、効果的なドキュメント処理ソリューションを構築するプロセスを簡素化し、これらの機能をゼロショット出力とラベル付けを使用しないシンプルで使いやすいアナライザー構築プロセスにパッケージ化すると同時に、必要に応じて信頼度スコアと接地を含む豊富なスキーマを提供します。 Content Understanding には、ほとんどのドキュメント処理の課題を解決するように構成できる豊富なツールセットが用意されています。

  • 更新された読み取りとレイアウト: Content Understanding Layout には、マルチページ テーブル、ハイパーリンク抽出など、いくつかの更新された機能があります。 レイアウトの新機能の詳細を確認します。 読み取りとレイアウトのモデルは、AI の品質が向上して更新されます。
  • レイアウトの価格の向上: Content Understanding には、レイアウトの新しい価格と低い価格があります。詳細については、 価格を参照してください
  • 推論されたフィールドとエンリッチメント: ドキュメントに明示的に存在しない出力フィールドを生成します。 たとえば、請求書の合計税を計算したり、当事者の住所から契約の管轄権を決定したり、句の文言から分析情報を導き出したりします。
  • 分類と分割: 大規模なファイルを解析して、インテリジェントルーティングと対象スキーマ抽出のために個々のセグメントを識別および分割します。 ターゲットには、事前構築済みおよびカスタムを含むすべてのアナライザーが含まれます。
  • 後処理と検証: 日付形式の変換、通貨コードの正規化、整合性チェックの実行など、フィールドの説明で直接後処理ルールを定義します。
  • モデルの選択: Content Understanding では、複数の Gen AI モデルがサポートされ、最適な結果品質とコストのトレードオフを提供するモデルを柔軟に選択できます。 サポートされているモデルの詳細を確認します。
  • 複数ファイル入力 (プレビュー): 1 つの要求で複数の入力ファイルを処理し、すべての入力にわたって統合スキーマを抽出し、ドキュメント間の検証と集計を有効にします。
  • 推論 (プレビュー): 複雑なインテリジェントなドキュメント処理ワークフローを簡略化します。 Content Understanding では、抽出、検証、集計、およびレビューのためのマルチステップ プロセスを構築する代わりに、1 つの統合操作ですべてを処理します。

メモ

GA バージョン以降、Content Understanding では、Gen AI モデルを必要とするすべての操作に Foundry モデルのデプロイが使用されます。 デプロイして使用するモデルの詳細については、「 モデルとデプロイ 」ページを参照してください。

AzureでホストされたLLM(Foundryモデル)

ニッチ AI ワークフローを必要とする組織では、Foundry モデルを使用して構築されたカスタム ソリューションによって、最大限の柔軟性が提供されます。 GPT-4.1、ささやき、埋め込みなどのモデルを組み合わせて高度にカスタマイズされた AI ソリューションを構築できます。通常は、ドキュメントをカスタム ワークフローに前処理するためにドキュメント インテリジェンスまたは Content Understanding を統合します。

このアプローチでは、モデルを評価し、必要に応じて更新し、プロンプトを管理し、コストを最適化する必要があります。 一般的な課題は、コスト管理と精度のトレードオフです。このアプローチには、困難なケースに対してのみレビューをトリガーするための適切なツールがないためです。 信頼度スコアとソースの基礎は、重要なエンジニアリング投資や人間によるレビューを必要とする重大なギャップです。

サービス機能

3 つすべてのサービスの機能の概要を次に示します。

機能 ドキュメント インテリジェンス コンテンツ理解 Azure OpenAI を使用して独自のビルドを行う
OCR 業界をリードする OCR 業界をリードする OCR 前処理が必要
複雑なドキュメント構造 表、セクション、選択マーク、図形などのレイアウト 複数ページの表、セクション、選択マーク、図形などを使用した拡張レイアウト 前処理が必要
フィールドの抽出 はい はい はい
信頼度スコア はい はい いいえ。追加の実装が必要です
ソースのグラウンディング はい はい いいえ。追加の実装が必要です
推定フィールド いいえ はい(生成フィールドと分類フィールドあり) はい
メタデータの生成 いいえ はい はい
後処理 限定 制限付きのカスタム ユーザー定義プロセス
大きなファイルを処理する はい はい 最適なパフォーマンスを得るには、チャンク法や他の方法を用いる必要があります
使いやすさ カスタム モデルを構築するためにラベル付けとトレーニングが必要です。レイアウトモデルと事前構築済みモデルを直接使用できます 開始するためにラベル付けが不要な単純なスキーマ定義。 改善するラベル。 迅速なエンジニアリングで結果を最適化する
使用するスケール 管理 接続された Gen AI の導入によって管理される 必要に応じてコンポーネントを手動でスケーリングする
遅延 デプロイされた PTU に依存
複数ファイル入力 いいえ はい、Pro モードでのサポート (2025-05-01-preview) いいえ
ナレッジ ベース いいえ はい (プレビュー) 複雑でエンジニアリングが必要
推論 いいえ はい、Pro モードでのサポート (2025-05-01-preview) 複雑でエンジニアリングが必要

独自のモデルをビルドするよりも Content Understanding を選択するタイミング

利点 Azure コンテンツ理解 独自のモデルを構築する
統合されたマルチモーダル パイプライン ✅ ドキュメント、画像、オーディオ、ビデオをサポート ❌ オーケストレーションが必要
事前構築済みのエンリッチメントとスキーマの正規化 ✅ 使用可能な事前構築済みテンプレート ❌ 実装が必要
簡略化された価格 ✅ トークン ベースの価格 ✅ トークン ベースの価格
エンタープライズ ガバナンスとセキュリティ ✅ Azure セキュリティ コンプライアンス ❌ カスタム実装
信頼度スコア ✅ 組み込みのスコア ❌ カスタム実装
ソースの接地 ✅ 組み込みのスコア ❌ カスタム実装
チャンク化と正規化 ✅ 組み込みのアルゴリズム ❌ カスタム実装
プロンプトのチューニング ✅ 自動的に最適化 ❌ エンジニアリングが必要
コンテキスト ウィンドウ ✅ 長いファイル用に最適化 ❌ 手動処理
エンタープライズ推論ワークフロー ✅ 組み込みの推論機能 (プレビュー) ❌ カスタム チェーン

ガイド付きシナリオのウォークスルー

発生する可能性があるドキュメント処理シナリオのさまざまなカテゴリと、最適なサービスを使用して各ドキュメントを移動する方法を見てみましょう。 さまざまなドキュメント処理シナリオの例、関連する課題、および効果的なソリューションを構築するための考慮事項を次に示します。 処理しているドキュメントの種類が事前構築済みでサポートされている場合は、そこから開始し、事前構築済みのスキーマがシナリオに対応していない場合にのみ、カスタム ソリューションのビルドを選択する必要があります。

考慮 事項:

  • ストレート スルー処理 (STP): 信頼度スコアに基づいて人間によるレビューを必要とせずに処理できるドキュメントの数の測定値。 信頼度と精度レベルが高いほど、手動操作なしでほとんどのドキュメントを自動化できます。
  • 待機時間: ドキュメントを処理する時間。エンド ユーザー エクスペリエンスにとって推論時間が重要なシナリオに不可欠です。
  • 精度: ソリューションの全体的なエラー率。 精度が高いほど、システムの出力に対する信頼性が向上します。
  • 継続的改善:システムが時間の経過と共に改善し、時間と共に品質変化を測定できるようにします。
  • 複雑さ: ユース ケースに応じて、ドキュメントから何を抽出または推論しますか。
  • ビルド作業: 複雑なロジックの処理、ビジネス要件、データのラベル付け、複雑なワークフローのまとめなど、モデルを構築する取り組み。
  • 総保有コスト: 処理スケールを使用したユース ケースのインフラストラクチャ、管理、およびメンテナンスコストの比較ビュー。

シナリオ 1: 標準化された単一形式のフォームを処理する

ビジネス プロセス:
同じテンプレートを持つフォームから、名前、生年月日、住所、口座番号、その他の詳細などの固定フィールドを毎回抽出します。 :

  • 雇用手続きを行うフォーム(従業員全員に同じレイアウト)
  • 特定の e コマース プロバイダーの払い戻し要求フォーム
  • 特定の医療プロバイダーの患者受付書式
  • 特定の銀行プロバイダーの口座開設アプリケーション

サンプル W2 フォームのスキャン。

推奨事項:

  • このクラスのドキュメントは、Content Understanding (recommended) またはドキュメント インテリジェンスによって提供されます。 Content Understanding を使用すると、作業の開始が簡単になります。 どちらのサービスも信頼度スコアと接地を提供し、人的レビューのコストとスケールを最小限に抑えます。

シナリオ 2: 既知のバリアントがほとんどないドキュメントの管理

ビジネス プロセス:
一貫性のあるフィールド (名前、金額、ポリシー番号、要求日) を、既知のテンプレートの小さなセットに抽出します。 :

  • 特定の地域向けに、いくつかのフォーマットで用意された保険請求フォーム (例: 米国、英国、APAC)
  • 毎年マイナー レイアウトが更新された年次税フォーム
  • 異なる学位プログラムのための大学入学申請
  • 部署固有のテンプレートを使用した従業員経費レポート

サンプルの運転免許証のスキャン。 サンプル パスポートのスキャン。

推奨事項:

  • Content Understanding (Recommended): 事前構築済みの請求書アナライザーから始めます。 信頼度スコアと接地を備えた一般化されたソリューション。 レイアウトと OCR の機能が向上し、ドキュメントのセマンティック理解が強化された場合、Content Understanding は最適な結果を提供する必要があります。
  • ドキュメント インテリジェンス: 各バリアントの少なくとも 5 つのサンプルを使用してカスタム モデルをトレーニングし、相違点が小さい場合はバリアントを 1 つのモデルに結合します。 出力は信頼度スコアとグラウンディングと整合します。
  • カスタム ソリューションを構築する: ドキュメント (レイアウト) の解析に必要なコンポーネントをビルドして構成し、フィールドを抽出し、必要な後処理をビルドします。 ソリューションはさまざまなバリエーションでテストおよび検証する必要があり、デプロイされたソリューションをスケーリングして管理する必要があります。 信頼度スコアなしで、すべての結果を受け入れるか、予想されるエラー率に基づいてすべての結果を確認するか、独自の信頼度モデルを構築して出力をスコア付けします。

シナリオ 3: 高バリエーションの半構造化ドキュメント

ビジネス プロセス:
一貫性のないテンプレートを持つ非常に多様なドキュメントから、請求書番号、仕入先名、合計金額、明細、日付などの主要なフィールドを抽出します。 :

  • 異なる形式の複数のベンダーからの請求書
  • 国際店舗チェーンからの領収書
  • ベンダーから異なるテンプレートを含む配信ノート
  • 仕入先ごとにレイアウトが異なる発注書
  • 異なる大学の成績証明書

サンプル請求書フォームのスキャン。 垂直レイアウトを使用したサンプル請求書フォームのスキャン。

推奨事項:

  • Content Understanding (Recommended): テンプレートと言語のバリエーションをまたいで一般化できる簡単な入門エクスペリエンスとアナライザーにより、Content Understanding は、管理オーバーヘッドを最小限に抑えて高品質の出力を提供するのに最適です。
  • ドキュメント インテリジェンス: 事前構築済みモデルが適用可能な場合はそれを用いるか、複数のラベル付けを用いて確かで低遅延かつ一貫性のある出力を得るために独自のカスタムモデルを構築できます。
  • カスタム ソリューションを構築する: ドキュメント (レイアウト) の解析に必要なコンポーネントをビルドして構成し、フィールドを抽出し、必要な後処理をビルドします。 ソリューションはさまざまなバリエーションでテストおよび検証する必要があり、デプロイされたソリューションをスケーリングして管理する必要があります。 信頼度スコアがない場合は、すべての結果を受け入れるか、予想されるエラー率に基づいてすべての結果を確認します。

シナリオ 4: 非構造化ドキュメントから分析情報を抽出する

ビジネス プロセス:
自由テキスト、複数ページ、物語のドキュメントから、義務、概要、契約当事者、リスク インジケーター、センチメント、意思決定などの推論の詳細などの推論詳細を抽出、生成します。 :

  • 法的契約とサービス契約
  • 投資レポート
  • 研究論文
  • 患者紹介状
  • 従業員フィードバック レポート

サンプル Web ホスティング契約契約のスキャン。

推奨事項:

  • Content Understanding (Recommended): このユース ケースに最適なサービスです。 Content Understanding では、開始日と期間、合計税または地域を含むコントラクトの終了日など、推論されたフィールドを抽出できます
  • カスタム ソリューションを構築する: ドキュメント (レイアウト) の解析に必要なコンポーネントをビルドして構成し、フィールドを抽出し、必要な後処理をビルドします。 ソリューションはさまざまなバリエーションでテストおよび検証する必要があり、デプロイされたソリューションをスケーリングして管理する必要があります。 信頼度スコアがない場合は、すべての結果を受け入れるか、予想されるエラー率に基づいてすべての結果を確認します。

シナリオ 5: マルチドキュメント、混合メディア処理

ビジネス プロセス:
さまざまな形式のコンテンツの集計、相互参照の詳細、一貫性の検証 (ドキュメント間での名前の一致など)、および不整合の表面化。 :

  • オンボーディング コンテンツ: PDF フォーム + ID 画像 + 録画されたビデオ インタビュー
  • コンプライアンス ケース: 電子メール テキスト + コントラクト + 通話トランスクリプト
  • 医療請求: 医師のメモ + ラボ レポート + 電話による相談
  • マルチメディア RFP 提出: 提案 PDF + 製品画像 + 説明ビデオ

サンプルの税請求書フォームのスキャン。 サンプルのレシート フォームのスキャン。

推奨事項:

  • Content Understanding: pro モード (2025-05-01-preview) を使用すると、Content Understanding は、同じ要求内の複数の入力ドキュメントを受け入れ、コンテンツに対する理由と参照データを受け入れ、必要な出力スキーマを生成できます。
  • カスタム ソリューションを構築する: このシナリオでは、さまざまな入力ファイルを解析してまとめて推論する必要があるエージェント ソリューションが必要です。 このソリューションでは、ドキュメントの種類と期待される値を決定し、統合された出力を生成するための複雑な処理が必要です。

概要

適切なドキュメント処理サービスの選択は、タスクの複雑さ、形式またはテンプレートの多様性、推論のニーズ、待機時間の感度、ヒューマン レビューのニーズ、エンタープライズ統合の要件によって異なります。 ドキュメント インテリジェンスに基づいて構築された Content Understanding では、組み込みの後処理を使用して、OCR、レイアウト、フィールド抽出の機能が向上します。 ドキュメント インテリジェンス機能と完全に一致すると同時に、より複雑で多様なドキュメントの種類のサポートが拡張されます。 ほとんどの IDP シナリオの Content Understanding から始めます。

マネージド サービスが適さないカスタム、試験的、または会話型の AI ワークフローには Foundry モデルを使用します。 Content Understanding のレイアウトは、すべての入力ドキュメントの前処理サービスとして使用できます。

以前は、多くの企業がこれらのサービスをハイブリッド ソリューションに組み合わせ、前処理手順としてレイアウトまたはコンテンツ抽出にドキュメント インテリジェンスを使用してきました。 Content Understanding では、これらのシナリオのほとんどに対応するソリューションが提供されるようになりました。