[この記事はプレリリース ドキュメントであり、変更されることがあります。]
AIエージェントがビジネスプロセスで重要な役割を担う中で、信頼性が高く繰り返し可能なテストの必要性が不可欠となっています。 エージェント評価は、エージェントの実世界のシナリオをシミュレートする テストを生成する ことを可能にします。 これらのテストは、手動のケースバイケーステストよりも多くの問題を速くカバーします。 そして、エージェントがアクセスできる情報に基づいて、質問に対する答えの正確性、関連性、質 を測定 できます。 テストセットの結果を活用することで、エージェントの挙動を最適化し、エージェントがあなたのビジネスおよび品質要件を満たしていることを検証できます。
Important
この記事には、Microsoft Copilot Studio のプレビュー ドキュメントが含まれており、変更される可能性があります。
プレビュー機能は運用環境向けではなく、機能が制限されている可能性があります。 これらの機能は公式リリースの前に利用できるため、早期にアクセスして フィードバックを提供できます。
運用対応エージェントを構築する場合は、 Microsoft Copilot Studio の概要を参照してください。
なぜ自動検査を使うのか?
エージェント評価は自動化された構造化されたテストを提供します。 問題を早期に発見し、誤答のリスクを減らし、エージェントの進化に伴い品質を維持します。 このプロセスは、エージェントテストに自動化され再現可能な品質保証をもたらします。 これにより、エージェントがあなたのビジネスの正確さと信頼性の基準を満たし、業績の透明性を得られます。 テストチャットを 使ったテストとは異なる強みがあります。
エージェント評価はAIの倫理や安全性の問題ではなく、正確性やパフォーマンスを測定します。 エージェントはすべての評価テストに合格しても、例えば質問に対して不適切な答えを出すことがあります。 顧客は引き続き責任あるAIレビューとコンテンツ安全フィルターを活用すべきです。評価はそれらのレビューやフィルターの代わりにはなりません。
エージェント評価の仕組み
Copilot Studioは各エージェント評価にテスト ケース を使用します。 テストケースとは、ユーザーがエージェントに尋ねる内容をシミュレートした単一のメッセージや質問のことです。 テストケースには、エージェントが返答して ほ しい答えを含めることもできます。 例えば次が挙げられます。
質問です:営業時間は何時ですか?
予想される対応:月曜から金曜の午前9時から午後5時まで営業しています。
エージェント評価を使えば、テストケースの グループを生成、 インポート、 または手動で作成 できます。 このテストケースのグループは テストセットと呼ばれます。 テストセットを使えば、以下ができます:
エージェントに一度に一つ質問するのではなく、幅広い機能をカバーする複数のテストケースを実行しましょう。
エージェントのパフォーマンスを分かりやすくまとめたスコアで分析し、個々のテストケースにも注目しましょう。
エージェントの変更を同じテストセットでテストするため、パフォーマンスの変化を測定・比較するための客観的な基準が得られます。
新しいテストセットを迅速に作成したり、既存のテストセットを修正して、エージェントの能力や要件の変化に対応しましょう。
テストセットには、使用したい テスト手法 も含まれています。 エージェントのパフォーマンスは以下に基づいて測定できます:
完全一致またはキーワードマッチ:エージェントの質問に対する回答があなたの期待する回答とどれだけ一致しているか。
意味的類似性:エージェントの回答があなたの期待する回答の考えや意図にどれだけ近いか。
品質:LLMベースの評価を用いてエージェントの回答がどれだけ良いか。
また、質問を送信するユーザーとしてユーザープロファイルを選択することも可能です。 エージェントは異なるユーザーに対して異なる方法で応答したり、リソースへのアクセスを異なる方法で許可するように設定されている場合があります。
テストセットを選択して エージェント評価を実行すると、Copilot Studioはテストケース内の質問を送信し、エージェントの回答を記録し、それを期待される回答や品質基準と比較し、各テストケースにスコアを割り当てます。 また、各テストケースの詳細、書き起こし、活動マップ、そしてエージェントが応答を作成する際に使ったリソースも確認できます。
テストチャットとエージェント評価の違い
それぞれのテスト方法は、エージェントの特性や行動について異なる洞察を与えてくれます。
一度に一つの質問を受け取り、回答します。 同じ検査を何度も繰り返すのは難しいです。
複数のメッセージを含むセッション全体をテストできます。
チャットインターフェースを使ってエージェントとユーザーとしてやり取りできます。
エージェント評価:
複数のテストケースを同時に作成・実行できます。 同じテストセットを使えばテストを繰り返すことができます。
テストケースごとに1つの質問と1つの回答しかテストできません。 完全な会話セッションをテストするわけではありません。
異なるユーザープロファイルを選択して、自分でやり取りを行わなくても異なるユーザーをシミュレートできます。
エージェントをテストする際は、テストチャットとエージェント評価の両方を使ってエージェントの全体像を把握しましょう。