Azure でドキュメントの分類を自動化する

Azure Functions

Azure AI Foundry

Azure AI Foundry SDK

Az AI サービス

Azure AI Search

Azure AI Document Intelligence

この記事では、さまざまなドキュメントを処理するアーキテクチャについて説明します。このアーキテクチャでは、Azure Functions の Durable Functions 機能を使用してパイプラインを実装します。パイプラインは、ドキュメントの分割、名前付きエンティティ認識 (NER)、分類のために Azure AI ドキュメントインテリジェンスを介してドキュメントを処理します。取得拡張生成 (RAG) ベースの自然言語処理 (NLP) では、ドキュメントコンテンツとメタデータを使用して関連情報を検索して生成します。

アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

Workflow

次のワークフローは、上記のダイアグラムに対応しています。

ユーザーがドキュメントファイルを Web アプリにアップロードします。このファイルには、PDF や複数ページのタグイメージファイル形式 (TIFF) ファイルなど、さまざまな種類の複数の埋め込みドキュメントが含まれています。 Azure Blob Storage にはドキュメントファイル (1a) が格納されます。パイプライン処理を開始するために、Web アプリは Azure Service Bus キュー (1b) にコマンドメッセージを追加します。
コマンドメッセージにより、Durable Functions によるオーケストレーションがトリガーされます。メッセージには、処理するドキュメントファイルの Blob Storage の場所を識別するメタデータが含まれています。 Durable Functions の各インスタンスは、1 つのドキュメントファイルのみを処理します。
分析アクティビティ関数は、処理するドキュメントファイルの保存場所を渡すドキュメントインテリジェンス分析ドキュメント API を呼び出します。 analyze 関数はドキュメントファイル内の各ドキュメントを読み取って識別します。この関数は、各埋め込みドキュメントの名前、型、ページ範囲、およびコンテンツをオーケストレーションに返します。
metadata store アクティビティ関数では、各ドキュメントのドキュメントの種類、場所、ページ範囲の情報を Azure Cosmos DB ストアに保存します。
埋め込み アクティビティ関数は、セマンティックカーネルを使用して各ドキュメントをチャンクし、各チャンクの埋め込みを作成します。この関数は、埋め込みと関連するコンテンツを Azure AI Search に送信し、ベクター対応インデックスに格納します。また、この関数は、検索結果が Azure Cosmos DB の対応するドキュメントメタデータと一致するように、関連付け ID を検索ドキュメントに追加します。
セマンティックカーネルは、NLP の AI 検索ベクターストアから埋め込みを取得します。
ユーザーは、NLP を使用してデータとチャットできます。ベクターストアから取得されたグラウンドデータは、この会話に力を発揮します。 Azure Cosmos DB でドキュメントレコードを検索するために、ユーザーは検索結果セットに含まれる関連付け ID を使用します。レコードには、Blob Storage の元のドキュメントファイルへのリンクが含まれています。

コンポーネント

Durable Functions は、サーバーレスコンピューティング環境でステートフル関数を記述するのに使用できる Azure Functions の機能です。このアーキテクチャでは、Service Bus キュー内のメッセージによって永続的な関数インスタンスがトリガーされます。このインスタンスは、ドキュメント処理パイプラインを開始して調整します。
Azure Cosmos DB は、任意の数の地理的リージョンにわたってスループットとストレージ容量をスケーリングできる、グローバルに分散された複数モデルのデータベースです。包括的なサービスレベルアグリーメント (SLA) により、スループット、待機時間、可用性、一貫性が保証されます。このアーキテクチャでは、Azure Cosmos DB はドキュメント分類情報のメタデータストアとして機能します。
Azure Storage は、データ、アプリ、ワークロード用のスケーラブルで安全なクラウドサービスのセットです。これには、 Blob Storage、 Azure Files、 Azure Table Storage、 Azure Queue Storage が含まれます。このアーキテクチャでは、Blob Storage は、ユーザーがアップロードし、永続関数パイプラインが処理するドキュメントファイルを格納します。
Service Bus は、メッセージキューとパブリッシュ/サブスクライブトピックを持つマネージドエンタープライズメッセージブローカーです。このアーキテクチャでは、Service Bus によって永続的な関数インスタンスがトリガーされます。
Azure App Service には、Web アプリの構築、デプロイ、およびスケーリングを行うためのフレームワークが用意されています。 App Service の Web Apps 機能は、Web アプリケーション、REST API、モバイルバックエンドをホストする HTTP ベースのツールです。 Web Apps を使用して、.NET、.NET Core、Java、Ruby、Node.js、PHP、または Python で開発できます。アプリケーションは、Windows ベースおよび Linux ベースの環境で実行およびスケーリングできます。このアーキテクチャでは、ユーザーは App Service でホストされる Web アプリを介してドキュメント処理システムを操作します。
ドキュメントインテリジェンスは、ドキュメント、フォーム、画像から分析情報を抽出するサービスです。このアーキテクチャでは、ドキュメントインテリジェンスを使用してドキュメントファイルを分析し、コンテンツとメタデータ情報と共に埋め込みドキュメントを抽出します。
AI Search は、Web、モバイル、エンタープライズアプリケーションのプライベートで多様なコンテンツの検索エクスペリエンスを提供します。このアーキテクチャでは、ユーザーが NLP を使用してドキュメントを検索および取得できるように、抽出されたドキュメントコンテンツとメタデータ情報の埋め込みインデックスが AI Search ベクターストレージによって作成されます。
セマンティックカーネルは、大規模な言語モデル (LLM) をアプリケーションに統合するフレームワークです。このアーキテクチャでは、セマンティックカーネルは、AI Search に格納されるドキュメントコンテンツとメタデータ情報の埋め込みを作成します。
Microsoft Foundry は、AI ソリューションとサービスとしてのモデル (MaaS) の構築、テスト、デプロイに使用するプラットフォームです。このアーキテクチャでは、Foundry によって Azure OpenAI モデルがデプロイされます。
- Foundry プロジェクトは、データソースへの接続の確立、エージェントの定義、デプロイされたモデル (Azure OpenAI モデルを含む) の呼び出しに使用できる特殊なワークスペースです。このアーキテクチャには、Foundry アカウント内に 1 つの Foundry プロジェクトがあります。
- Foundry Models は、Microsoft がホストする環境で Azure AI カタログから、OpenAI モデルを含むフラグシップモデルをデプロイするプラットフォームです。この方法では、MaaS デプロイを使用します。このアーキテクチャでは、固定クォータで Global Standard 構成を使用してモデルをデプロイします。

代替

グローバル配布を容易にするために、このソリューションでは Azure Cosmos DB にメタデータを格納します。 Azure SQL Database は、ドキュメントのメタデータと情報を永続的に保存するためのもう 1 つのオプションです。
永続的な関数インスタンスをトリガーするには、Azure Event Grid など、他のメッセージングプラットフォームを使用できます。
セマンティックカーネルの代わりに、 Azure Machine Learning または Azure AI サービスを使用して埋め込みを作成できます。
セマンティックカーネルの代わりに Microsoft Agent Framework を使用して、ワークフローを調整できます。
ユーザーに自然言語インターフェイスを提供するには、Foundry 内で他の言語モデルを使用できます。このプラットフォームは、Mistral、Meta、Cohere、Hugging Face など、さまざまなプロバイダーのさまざまなモデルをサポートしています。

シナリオの詳細

このアーキテクチャでは、パイプラインがドキュメントファイル内のドキュメントを識別し、種類別に分類し、後続の処理で使用する情報を格納します。

多くの企業は、一括スキャンするドキュメントを管理および処理する必要があり、PDF や複数ページの TIFF イメージなど、いくつかの異なる種類のドキュメントが含まれています。これらのドキュメントは通常、組織外部からのものであり、受け取った会社は形式を管理していません。

これらの制約により、組織はカスタムテクノロジと手動プロセスを含めることができる独自のドキュメント解析ソリューションを構築する必要があります。たとえば、他のユーザーが手動で個々のドキュメントの種類を分離し、ドキュメントの種類ごとに分類修飾子を追加する場合があります。

これらのカスタムソリューションの多くは、ステートマシンのワークフローパターンに基づいています。このソリューションでは、データベースシステムを使用してワークフローの状態を保持し、処理する必要がある状態を確認するポーリングサービスを使用します。これらのソリューションを維持および強化すると、複雑さと労力が増える可能性があります。

組織では、組織のドキュメントタイプの識別と分類を処理および管理するための、信頼性が高く、スケーラブルで回復力のあるソリューションを求めています。このソリューションでは、毎日何百万ものドキュメントを処理でき、処理パイプラインの成功または失敗を完全に監視することができます。

NLP を使用すると、ユーザーは会話形式でシステムと対話できます。ユーザーはドキュメントに関する質問をしたり、ドキュメントの内容に基づいて回答を受け取ることができます。

考えられるユースケース

レポートタイトルを生成します。 多くの政府機関や自治体は、デジタル形式ではない紙の記録を管理しています。効果的な自動化ソリューションでは、ドキュメント要求を満たすために必要なすべてのドキュメントを含むファイルを生成できます。
メンテナンスレコードの管理: 航空機、機関車、機械のメンテナンス記録などの紙の記録をスキャンして外部の組織に送信します。
許可の処理: 市区町村および郡の許可部門は、許可検査レポート用に生成される紙文書を保持しています。複数の検査ドキュメントを撮影し、これらの記録全体を自動的に識別、分類、検索できます。
Planograms を分析します。 小売および消費者向け製品の企業は、店舗棚のプラノグラム分析を通じて在庫とコンプライアンスを管理します。店舗棚の写真を撮り、さまざまな製品からラベル情報を抽出して、製品情報を自動的に識別、分類、定量化することができます。

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。詳細については、「 Well-Architected Framework」を参照してください。

[信頼性]

信頼性は、アプリケーションが顧客に対して行ったコミットメントを確実に満たすことができるのに役立ちます。詳細については、「信頼性の設計レビューチェックリスト」を参照してください。

Azure でホストされている OpenAI モデルを使用する Foundry プロジェクトからモデルを呼び出すときの信頼性と高可用性を確保するには、 Azure API Management などの生成 API ゲートウェイの使用を検討してください。このアプローチでは、複数のモデルデプロイまたは Foundry エンドポイント間の要求を管理します。 Azure バックエンドゲートウェイは、デプロイ間でのラウンドロビン、重み付け、および優先順位ベースのルーティングをサポートし、トラフィック分散を完全に制御します。このアプローチにより、Foundry プロジェクトでは、パフォーマンス、リージョンの可用性、またはコストの要件に合わせて調整された回復力のあるフェールオーバー戦略とインテリジェントな負荷分散を実装できます。

学習と早期の概念実証作業には、 Global Standard デプロイを使用します。 Global Standard は従量課金制であり、最高の既定のクォータを提供し、Azure グローバルインフラストラクチャを使用して各要求を最も利用可能なリージョンにルーティングします。このアプローチにより、実験中にリージョンのクォータまたは容量の制約が発生する可能性が減少し、既定の開始点として Global Standard を使用するための Microsoft ガイダンスに準拠します。

運用ワークロードの場合は、次の条件に基づいてデプロイの種類を選択します。

データ処理の場所:
- Microsoft Foundry リージョンで最も高い可用性と推論を行いたい場合は、 Global Standard または Global Provisioned を使用します。一方、保存データは選択した地域に残ります。
- データ所在地の要件を満たすために、Microsoft が定義したデータゾーン (米国のみ、EU のみなど) 内で推論を続ける必要がある場合は、 Data Zone Standard または Data Zone Provisioned を使用します。
スループットとコストモデル:
- 低〜中程度の負荷、バースト性のある負荷、または探索的な負荷には、Global Standard、Data Zone Standard、Regional Standard などの標準的なデプロイタイプを使用します。これらの種類では、予約容量のない従量課金制モデルが使用されます。トラフィックパターンを理解する前に、これらの種類を初期段階で選択してください。
- 予約済みスループット、一貫性のある待機時間、コスト最適化のために予約を使用するオプションを必要とする予測可能でボリュームの高いワークロードには、グローバルプロビジョニング済み、 データゾーンプロビジョニング済み、リージョンプロビジョニングなどのプロビジョニング済みデプロイの種類 を使用します。

ほとんどのチームは、開発のために Global Standard から始まります。または、データ所在地が重要な場合は Data Zone Standard を使用します。安定した状態のスループットと待機時間の要件を決定した後、重要なパスを プロビジョニング済み SKU に移動します。

ソリューションコンポーネントの信頼性の詳細については、 Azure オンラインサービスの SLA 情報を参照してください。

コストの最適化

コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。詳細については、「コスト最適化の設計レビューチェックリスト」を参照してください。

このアーキテクチャの最も重要なコストには、次のコンポーネントが含まれます。

OpenAI またはその他のモデルを含む Microsoft Foundry を使用したモデル推論の使用
ドキュメントインテリジェンスを使用したドキュメントの取り込みと処理
AI 検索を使用したインデックス作成と検索の使用

コストを最適化するには、次の推奨事項を検討してください。

ワークロードが予測可能な場合は、トークンごとの支払いではなく、プロビジョニングされたスループットユニット (PTU) または Microsoft Foundry デプロイの予約を使用します。
- 詳細については、次のリソースを参照してください。
AI Search でのリージョンデプロイと運用スケールアップスケジューリングを計画します。
ドキュメントインテリジェンスのコミットメントレベルの価格を使用して 、予測可能なコストを管理します。
ストレージ アカウントを適切にサイズ変更するには、予約容量とライフサイクルポリシーを使用します。
開始時に大規模なリソースに投資するのではなく、アーキテクチャに従量課金制の戦略を使用し、必要に応じてスケールアウトします。ソリューションが成熟すると、 App Service の予約を使用して、該当する場合にコストを削減できます。
アーキテクチャの機会コストを考慮し、ファーストムーバーアドバンテージ戦略と高速フォロー戦略のバランスを取ります。 初期コストと運用コストを見積もるために、 Azure 料金計算ツールを使用します。
ソリューションのコスト制限を設定する予算とコントロールを確立します。 予測アラートと実際のコストアラートを設定するには、予算アラートを使用します。

パフォーマンス効率

パフォーマンス効率とは、ユーザーの要求を効率的に満たすためにスケーリングするワークロードの能力を指します。詳細については、「パフォーマンス効率の設計レビューチェックリスト」を参照してください。

このソリューションでは、大量のデータを処理するときにパフォーマンスのボトルネックが明らかになる可能性があります。ソリューションの適切なパフォーマンス効率を確保するために、 Azure Functions のスケーリングオプション、 AI サービスの自動スケーリング、 Azure Cosmos DB のパーティション分割について理解し、計画します。

ドキュメント処理パイプラインに Azure Functions の一部である永続的な関数を使用してスケーラブルなコンピューティングとオーケストレーションを適用し、そのスケーリング動作を調整します。詳細については、「永続関数のパフォーマンスとスケール」を参照してください。
推論ワークロードに適したデプロイモデルを Microsoft Foundry で選択 します。負荷の高い一貫性のあるトラフィックが予想される場合は、可変ワークロードとプロビジョニング済みスループットモデルにサーバーレス API を使用します。詳細については、「 Foundry モデルのプロビジョニングスループット」および「Azure OpenAI および Foundry モデルのパフォーマンスと待機時間の最適化」を参照してください。
AI Search の適切なパーティション分割、レプリカ、スキーマを構成して、インデックス作成と取得のパフォーマンスを最適化します。詳細については、 AI Search のパフォーマンスに関するヒントを参照してください。
パフォーマンスベースラインとフィードバックループを確立します。 現実的な待機時間とスループットのターゲットを早期に定義し、実際のシステムパフォーマンスを継続的に監視し、使用パターンの進化に応じてアーキテクチャと運用構成を調整します。詳細については、「パフォーマンス効率の設計原則」を参照してください。

これらのプラクティスを適用して、ソリューションのスケーリングに合わせてドキュメント分類ソリューションの応答性とコスト効率を維持します。

共同作成者

Microsoft では、この記事を保持しています。次の共同作成者がこの記事を書きました。

プリンシパル作成者:

ケビン・クラウス |プリンシパルソリューションエンジニア

その他の共同作成者:

Brian Swiger |プリンシパルソリューションエンジニア

公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。

次の手順

次の記事では、関連するテクノロジの概要について説明します。

製品ドキュメントについては、次のリソースを参照してください。

フィードバック

このページはお役に立ちましたか?