ドキュメント インテリジェンスの透明性に関するメモとユース ケース

重要

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントのEN-USバージョンを参照してください。

透明度に関するメモとは

AI システムには、テクノロジだけでなく、それを使用するユーザー、影響を受けるユーザー、デプロイされる環境も含まれます。 目的に合ったシステムを作成するには、テクノロジのしくみ、機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。

Microsoftでは、トランスパレンシーに関するメモを提供し、AI テクノロジのしくみを理解するのに役立ちます。 これには、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢と、テクノロジ、人、環境など、システム全体について考えることの重要性が含まれます。 独自のシステムを開発または展開するときに透明性に関するメモを使用したり、システムを使用したり、システムの影響を受けるユーザーと共有したりできます。

透明性に関するメモは、AI の原則を実践するためのMicrosoftにおける広範な取り組みの一環です。 詳細については、Microsoft の AI の原則を参照してください。

ドキュメント インテリジェンスの基本

導入

ドキュメント インテリジェンス は一連の API を介してアクセスされ、開発者はドキュメントからテキスト、構造、フィールドを簡単に抽出できます。 次のような機能で構成されています。

  • テキスト抽出のための読み込み。
  • 構造分析情報、名前、場所、モノなどの一般的な ke 値とエンティティのレイアウトと一般的なドキュメント。
  • 請求書、領収書、名刺、W2、ID など、特定の種類のドキュメントに対する事前構築済みのモデル。
  • ドキュメントの種類に固有のモデルを構築するためのカスタム モデル。

ドキュメント インテリジェンスでは、サポートされている言語に関する記事に記載されているように、機能ごとに 1 つ以上の言語とロケール がサポートされています

主な用語

用語 定義
読む この機能は、画像やドキュメントからテキスト行、単語、およびその場所を、検出された言語などの他の情報と共に抽出します。
レイアウト この機能は、テキスト、選択マーク、およびテーブル構造 (テキストに関連付けられている行番号と列番号) を抽出します。 ドキュメント インテリジェンスレイアウトを参照してください。
一般的なドキュメント ドキュメントを分析し、値をキーとエントリに関連付けて、検出したテーブルに関連付けます。 詳細については、「 ドキュメント インテリジェンスの一般ドキュメント」を参照してください。
事前構築済みモデル 事前構築済みモデルは、一意のフォーム型のドキュメント固有のモデルです。 これらのモデルでは、使用前にカスタム トレーニングは必要ありません。 たとえば、事前構築済みの請求書モデルでは、請求書からキー フィールドが抽出されます。 詳細については、「 ドキュメント インテリジェンスの事前構築済み請求書モデル」を参照してください。
カスタム モデル ドキュメント インテリジェンスを使用すると、フォームとドキュメントに合わせて調整されたカスタム モデルをトレーニングできます。 このモデルでは、テキスト、キーと値のペア、選択マーク、およびテーブル データが抽出されます。 カスタム モデルは、ヒューマン レビューを適用し、ラベルを更新し、API を使用してモデルを再トレーニングすることで、人間のフィードバックによって改善できます。
信頼度値 すべての分析結果の取得操作は、抽出されたすべての単語とキーと値のマッピングについて、0 から 1 の範囲の信頼度値を返します。 この値は、サービスが 100 から単語を正しく抽出した回数、またはキーと値のペアを正しくマップした回数の推定値を表します。 たとえば、時間の 82% 正しく抽出されると推定される単語は、信頼度値 0.82 になります。
アドオン機能 ドキュメント インテリジェンスには、ドキュメントからより多くの要素を含むように結果を拡張するためのアドオン機能のセットが用意されています。 一部のアドオン機能では追加コストが発生し、ドキュメント抽出のシナリオに応じて有効または無効にすることができます。 現在、高解像度、数式、styleFont、バーコード、言語、keyValuePairs、queryFields 抽出機能が提供されています。 詳細については、「 ドキュメント インテリジェンス アドオン機能」を参照してください。

機能

システムの動作

Foundry Tools の Azure ドキュメント インテリジェンスは、光学式文字認識 (OCR)、Text Analytics、および Foundry Tools のカスタム テキストを使用して構築されたクラウドベースの Foundry ツールです。 カスタムモデルでは現在、Azure OpenAI サービスの GPT-3.5 モデルが使用されています。 OCR は、書体と手書きのテキスト ドキュメントを抽出するために使用されます。 ドキュメント インテリジェンスでは、OCR を使用して、AI でサポートされているフォームやドキュメントから情報を検出して抽出し、テキスト抽出により多くの構造と情報を提供します。

ユースケース例

意図された用途

ドキュメント インテリジェンスには、さまざまな業界のお客様がドキュメントからデータを抽出できる機能が含まれています。 次のシナリオは、適切なユース ケースの例です。

  • 買 掛金: ある会社では、事前構築済みの請求書モデルとカスタム フォームを使用して、担当者による請求書データ入力を高速化することで、買掛金担当者の効率を高めることができます。 事前構築済みの請求書モデルでは、 請求書の合計配送先住所などの主要なフィールドを抽出できます。

  • 保険フォームの処理: 顧客は、カスタム フォームを使用してモデルをトレーニングし、保険フォームでキーと値のペアを抽出し、データをビジネス フローにフィードして、プロセスの精度と効率を向上させることができます。 独自のフォームの場合、顧客はカスタム フォームを使用してキー値を抽出する独自のモデルを構築できます。 これらの抽出された値は、ビジネス内のさまざまなワークフローのアクション可能なデータになります。

  • 銀行フォーム処理: 銀行は、事前構築済みの ID モデルとカスタム フォームを使用して、"顧客を知る" ドキュメントのデータ入力を高速化したり、住宅ローンパケットのデータ入力を高速化することができます。 銀行が顧客にプロセスの一環として個人識別情報の提出を要求する場合、事前構築済みの ID モデルでは 、名前ドキュメント番号などのキー値を抽出できるため、データ入力の全体的な時間が短縮されます。

  • ロボットプロセス自動化 (RPA): カスタム抽出モデルを使用すると、さまざまな種類のドキュメントから必要な特定のデータを抽出できます。 抽出されたキーと値のペアは、RPA を介してデータベースや CRM システムなどのさまざまなシステムに入力し、手動データ入力を置き換えることができます。 ユーザーは、カスタム分類モデルを使用して、コンテンツに基づいてドキュメントを分類し、適切な場所に提出することもできます。 そのため、カスタム モデルから抽出されたデータの編成されたセットは、大量のドキュメントを定期的に処理する企業向けの RPA シナリオを文書化するための重要な最初のステップとなります。

その他のユース ケースを選択する際の考慮事項

ユース ケースを選択するときは、次の要因を考慮してください。

  • 機密データやシナリオが関係する場合は、人間によるレビューの適用を慎重に検討してください。高いリスクのシナリオ (他のユーザーの派生的権利に影響を与えるなど) や機密データに対処する場合は、手動レビューのループに人間を含める必要があります。 機械学習モデルは完璧ではありません。 特定のワークフローの手動レビュー手順を含める場合は、慎重に検討してください。 たとえば、空港などの入国港での本人確認には、人間による監視が含まれている必要があります。

  • 特典の付与または拒否に使用する場合は慎重に検討してください。Doc インテリジェンスは、特典の授与または拒否のために設計または評価されておらず、これらのシナリオで使用すると意図しない結果が生じる可能性があります。 これらのシナリオは次のとおりです。

    • 医療保険: 保険報酬または拒否に関する決定の基礎として、医療記録と医療処方箋の使用が含まれます。
    • ローンの承認: 新規ローンの申請や既存のローンの借換が含まれます。
  • サポートされているドキュメントの種類とロケールを慎重に検討してください。事前構築済みモデルには、サポートされているフィールドの定義済みの一覧があり、特定のロケール用に構築されています。 公式にサポートされているロケールとドキュメントの種類を慎重に確認して、最適な結果を得られるようにしてください。 たとえば、「 ドキュメント インテリジェンスの事前構築済みレシート ロケール」を参照してください。

  • 法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。 さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

制限

技術的な制限事項、運用上の要因、範囲

事前構築済みモデルの制限事項

ドキュメント インテリジェンスの事前構築済みモデルは、特定のドキュメントの種類を処理するために使用され、何千ものフォームで事前トレーニングされます。 この機能を使用すると、開発者はトレーニング データやラベル付けを必要とせず、数分以内に作業を開始して結果を得ることができます。 事前構築済みモデルの場合は、最適な結果を得るために、事前構築済みモデルごとに入力要件、サポートされているドキュメントの種類、ロケールの一覧をメモすることが重要です。 たとえば、事前構築済みの請求書入力要件を参照してください。

カスタム モデルの制限事項

ドキュメント インテリジェンス カスタム モデルは、独自のトレーニング データを使用してトレーニングされるため、モデルは特定のフォームとドキュメントにトレーニングできます。 この機能は、データにラベルを付ける方法と、提供するトレーニング データ セットの種類によって大きく異なります。 カスタム モデルの場合は、トレーニング データ セットのサイズの制限、ドキュメント ページの制限、ドキュメントの種類ごとに必要なサンプルの最小数に注意することが重要です。 カスタム モデルでは現在、Azure OpenAI Serviceの GPT-3.5 モデルが使用されています。 Azure OpenAI モデルの詳細については、Azure OpenAI Transparency Note を参照してください。

[ サービスの制限] ページには、ドキュメント インテリジェンス サービスのクォータとすべての価格レベルの制限に関する詳細が表示されます。 モデルの制限事項、モデル使用のベスト プラクティス、およびリクエストのスロットリング回避に関する情報も含まれています。

機能のサポート

ドキュメント インテリジェンス モデルで実行できるさまざまな操作の一覧については、 分析機能の表 を参照してください。

システム パフォーマンス

精度

テキストは、基本レベルの行と単語、およびドキュメント理解レベルの名前、価格、金額、会社名、製品などのエンティティで構成されます。

単語レベルの精度

OCR の一般的な精度の尺度は、単語エラー率 (WER) または抽出された結果で誤って出力された単語の数です。 WER が低いほど、精度が高くなります。

WER は次のように定義されます。

WER 定義を示す図。

どこ:

用語 定義
S 出力内の不適切な単語 ("置換") の数。 "l" が "i" として検出されるため、"Velvet" は "Veivet" として抽出されます。
D 出力に含まれていない ("削除された") 単語の数。 "会社名: Microsoft" というテキストの場合、Microsoftは手書きまたは読みにくいため抽出されません。
I 出力に存在しない ("inserted") 単語の数。 "Department" は、"Dep artm ent" という 3 つの単語に誤って分割されます。この場合、結果は 1 つの削除された単語と 3 つの挿入された単語になります。
C 出力で正しく抽出された単語の数。 正しく抽出されたすべての単語。
N 元の参照に含まれていない単語が存在すると誤って予測されたため、参照 (N=S+D+C) 内の単語の合計数 (N=S+D+C) (I を除く)。 「Microsoft、ワシントン州レドモンドに本社を置く、金融部門向けベルベットという新製品を発表しました」という文の画像を考えてみましょう。OCR の出力が "、Redmond, WA に本社を置くは Veivet for finance dep artm ents と呼ばれる新製品を発表しました。この場合、S (ベルベット) = 1, D (Microsoft) = 1, I (dep artm ents) = 3, C (11)、N = S + D + C = 13。 したがって、WER = (S + D + I) / N = 5 / 13 = 0.38 または 38% (100 個中)。

信頼度値の使用

前のセクションで説明したように、サービスは OCR 出力内の予測された単語ごとに信頼度値を提供します。 お客様は、この値を使用してコンテンツとシナリオのカスタムしきい値を調整し、ストレートスルー処理または人間介入のプロセスへの転送のためにコンテンツを経路設定します。 結果の測定値によって、シナリオ固有の精度が決まります。

OCR システムのパフォーマンスへの影響は、OCR テクノロジが適用されるシナリオによって異なる場合があります。 その概念を説明するために、いくつかの例を確認します。

  • 医療機器コンプライアンス: この最初の例では、特許、デバイス、医薬品、治療の多様な製品ポートフォリオを持つ多国籍製薬会社は、FDA 準拠の製品ラベル情報と分析結果ドキュメントを分析する必要があります。 企業は、人間を介したプロセスの適用について、誤って抽出したデータが消費者に重大な影響を与えたり、規制当局から罰金を受けたりするコストが発生する可能性があるため、信頼度の低いしきい値を好むかもしれません。
  • 画像とドキュメントの処理: この 2 番目の例では、会社が保険とローンの申請処理を実行します。 OCR を使用しているお客様は、自動化されたテキスト抽出が他の情報入力や人間のループ内ステップと組み合わされてアプリケーションの全体的なレビューが行われるため、信頼度の低いしきい値を好む場合があります。
  • コンテンツモデレーション: サプライヤーから大規模にインポートされた大量の eコマース カタログ データの場合、誤ってフラグが設定されたコンテンツのごく一部であっても、人間のレビュー チームやサプライヤーに多くのオーバーヘッドが発生する可能性があるため、顧客は高い精度で高い信頼度のしきい値を好む場合があります。

ドキュメントとエンティティ レベルの精度

たとえば、請求書や領収書の場合、ドキュメント全体に 1 文字のみのエラーが発生した場合、ドキュメント レベルでは重要でないと評価される場合があります。 ただし、そのエラーが支払額を表すテキスト内にある場合は、請求書または領収書全体に誤ったフラグが設定される可能性があります。

もう 1 つの便利なメトリックは、エンティティ エラー率 (EER) です。 これは、1 つ以上のドキュメント内の対応するエンティティの合計数のうち、名前、価格、金額、電話番号など、誤って抽出されたエンティティの割合です。 たとえば、10 個の名前を表す合計 30 個の単語の場合、30 個のうち 2 つの不適切な単語は 0.06 (6%) WER になります。 ただし、10 個のうち 2 つの名前が正しくない場合、名前 EER は 0.20 (20%) であり、WER よりもはるかに大きくなります。

WER と EER の両方を測定することは、ドキュメントの理解精度に関する完全な視点を得るための便利な演習です。

システム パフォーマンスを向上するためのベスト プラクティス

制限事項とパフォーマンスについては、次の点を考慮してください。

このサービスでは、イメージとドキュメントがサポートされます。 ページ数、画像サイズ、用紙サイズ、およびファイル サイズの許容される制限については、「 ドキュメント インテリジェンスとは」を参照してください。

  • 多くの変数は、ドキュメント インテリジェンスが依存する OCR 結果の精度に影響を与える可能性があります。 これらの変数には、ドキュメント スキャンの品質、解像度、コントラスト、明るい条件、回転、サイズ、色、密度などのテキスト属性が含まれます。 たとえば、画像は 50 x 50 ピクセル以上にすることをお勧めします。 製品の仕様を参照し、ドキュメントでサービスをテストして、状況に合った状態を検証します。
  • 現在サポートされている入力、言語とロケール、ドキュメントの種類に関する各サービスの制限事項に注意してください。 たとえば、 レイアウトでサポートされている言語を参照してください。

カスタム モデルの品質を向上させるためのベスト プラクティス

ドキュメント インテリジェンス カスタム モデルを使用している場合は、モデルが特定のフォームとドキュメントにトレーニングできるように、独自のトレーニング データを提供します。 次の一覧では、カスタム フォーム モデルの種類を使用して、モデルの品質を向上するためのスターター ヒントを共有します。

  • 入力フォームの場合は、すべてのフィールドが入力されている例を使用します。
  • 各フィールドで期待される現実的な値を使用してフォームを作成します。
  • フォームイメージの品質が低い場合は、より大きなデータセット (少なくとも 10 から 15 個の画像など) を使用します。

完全なガイドと入力要件については、「 カスタム モデルのトレーニング データ セットを構築する」を参照してください。

ドキュメント インテリジェンスの評価

ドキュメント インテリジェンスのパフォーマンスは、実装されている実際のソリューションによって異なります。 シナリオで最適なパフォーマンスを確保するには、お客様が独自の評価を行う必要があります。 このサービスは、抽出された単語とキーと値のマッピングごとに、0 から 1 の範囲の信頼度値を提供します。 お客様は、信頼度の値の範囲とドキュメント インテリジェンスからの抽出品質を理解するために、ユース ケースを表すパイロットまたは概念実証を実行する必要があります。 その後、結果をストレートスルー処理 (STP) へ送るか、人間がレビューするかを決定するための信頼度値のしきい値を見積もることができます。 たとえば、顧客は、直線的な処理のために信頼度値が .80 以上の結果を送信し、信頼度値が .80 未満の結果に人間のレビューを適用できます。

ドキュメントインテリジェンスを活用するための評価と統合

Microsoftは、ドキュメント インテリジェンスを使用するソリューションを責任を持って開発および展開できるように支援したいと考えています。 私たちは、AI システムの公平性、信頼性と安全性、プライバシーとセキュリティ、包括性、透明性、人間のアカウンタビリティを考慮して、個人の機関と品位を維持するための原則的なアプローチを取っています。 これらの考慮事項は、責任ある AI の開発に対する Microsoft のコミットメントに沿っています。

AI を利用した製品または機能をデプロイする準備ができたら、次のアクティビティを使用して成功を収めるのに役立ちます。

  • 実行できる内容を理解します。 ドキュメント インテリジェンスの可能性を完全に評価して、その機能と制限事項を理解します。 特定のシナリオとコンテキストでそれがどのように実行されるかを理解します。 たとえば、事前構築済みの請求書モデルを使用している場合は、ビジネス プロセスからの実際の請求書でテストし、既存のプロセス メトリックに対して結果を分析してベンチマークします。

  • プライバシーに対する個人の権利を尊重する: 適法かつ正当な目的でのみ、個人からデータと情報を収集します。 この目的で使用することを同意したデータと情報のみを使用してください。

  • 法的レビュー: 特に機密性の高いアプリケーションやリスクの高いアプリケーションで使用する場合は、適切な法的レビューを取得します。 作業に必要な制限事項と、将来発生する可能性のある問題を解決する責任について理解します。

  • Human-in-the-loop: 人間をループに入れ、探索する一貫したパターン領域として人間の監視を含めます。 つまり、AI を利用した製品または機能を継続的に人間が監視し、意思決定における人間の役割を維持することを意味します。 損害を防ぐために、ソリューションに人間がリアルタイムで介入できることを確認します。 ループ内の人間は、ドキュメント インテリジェンスが必要に応じて実行されない状況を管理できます。

  • セキュリティ: ソリューションが安全であり、コンテンツの整合性を維持し、承認されていないアクセスを防ぐための適切な制御があることを確認します。

プライバシーを維持するための推奨事項

プライバシーアプローチを成功させ、個人に情報を提供し、プライバシーを維持するための制御と保護を提供します。

  • ドキュメント インテリジェンスが個人を特定できる情報 (PII) を組み込むように設計されたソリューションの一部である場合は、そのデータを記録するかどうかとその方法について慎重に検討してください。 プライバシーと機密データに関する該当する国内および地域の規制に従います。
  • プライバシー 管理者は、抽出されたテキストと値、およびそれらのドキュメントの基になるドキュメントまたは画像に関するアイテム保持ポリシーを検討する必要があります。 アイテム保持ポリシーは、各アプリケーションの使用目的に関連付けられます。

責任ある AI の詳細

ドキュメント インテリジェンスの詳細