[この記事はプレリリース ドキュメントであり、変更されることがあります。]
Copilot Studioでは、エージェントのパフォーマンスを評価するための テストケースセットを作成できます 。 テスト ケースを使用すると、エージェントの実際のシナリオをシミュレートできるため、エージェントがアクセスできる情報に基づいて、エージェントが尋ねる質問に対する回答の精度、関連性、および品質を測定できます。 テストセットの結果を活用することで、エージェントの挙動を最適化し、エージェントがあなたのビジネスおよび品質要件を満たしていることを検証できます。
Important
この記事には、Microsoft Copilot Studio のプレビュー ドキュメントが含まれており、変更される可能性があります。
プレビュー機能は運用環境向けではなく、機能が制限されている可能性があります。 これらの機能は公式リリースの前に利用できるため、早期にアクセスして フィードバックを提供できます。
運用対応エージェントを構築する場合は、 Microsoft Copilot Studio の概要を参照してください。
テスト メソッド
テストセットを作成する際には、 テキストの一致、 類似性、 品質など、さまざまなテスト方法からエージェントの回答を評価することができます。 各テスト 方法には独自の長所があり、さまざまな種類の評価に適しています。
テキスト一致テスト メソッド
テキスト一致テスト メソッドは、エージェントの応答と、テスト セットで定義した予想される応答を比較します。 次の 2 つの一致テストがあります。
完全一致 では、エージェントの回答がテストで予想される応答 (文字の文字、単語の単語) と正確に一致するかどうかを確認します。 同じ場合は、渡されます。 何か異なる場合は失敗します。 完全一致は、数値、コード、固定語句などの短く正確な回答に役立ちます。 ユーザーが複数の正しい方法でフレーズできる回答には適していません。
部分一致は 、エージェントの回答にあなたが定義した期待される回答の単語やフレーズが含まれているかどうかを確認します。 その場合は、渡されます。 そうでない場合は失敗します。 部分一致は、回答を異なる正しい方法で表現できるが、重要な用語やアイデアを応答に含める必要がある場合に便利です。
類似性テスト メソッド
類似性テスト メソッドは、エージェントの応答の類似性と、テスト セットで定義されている予想される応答を比較します。 これは、回答を異なる正しい方法で表現できるが、全体的な意味や意図を引き続き理解する必要がある場合に便利です。
コサイン類似性メトリックを使用して、エージェントの回答が予想される応答の文言と意味にどの程度類似しているかを評価し、スコアを決定します。 スコアの範囲は 0 から 1 で、1 は回答が密接に一致し、0 は一致しないことを示します。 合格スコアのしきい値を設定して、回答の合格スコアを構成するものを決定できます。
品質テスト方法
品質テスト方法は、エージェントの応答が標準を満たしているかどうかを判断するのに役立ちます。 このアプローチにより、結果は信頼性が高く、説明が簡単になります。
これらのメソッドでは、大規模な言語モデル (LLM) を使用して、エージェントがユーザーの質問にどの程度効果的に回答するかを評価します。 これらは、正確な回答が期待できない場合に特に役立ち、取得したドキュメントと会話フローに基づいて柔軟かつスケーラブルな方法で応答を評価できます。
品質テスト メソッドには、次の 2 つのテスト 方法が含まれます。
一般的な品質 は、エージェントの応答を評価します。 これらの重要な基準を用い、一貫したプロンプトを適用して採点を導きます:
関連性: エージェントの応答がどの程度質問に対処するか。 たとえば、エージェントの応答は件名にとどまり、質問に直接答えますか?
Groundedness: エージェントの応答がどの程度、提供されたコンテキストに基づいています。 たとえば、エージェントの応答は、関連性のない情報やサポートされていない情報を導入するのではなく、コンテキストで指定された情報を参照するか、依存していますか?
完全性: エージェントの応答が必要なすべての情報をどの程度提供するか。 たとえば、エージェントの応答は質問のすべての側面をカバーし、十分な詳細を提供しますか?
控え: エージェントが質問に答えようとしたかどうか。
高品質と見なされるには、回答がこれらすべての重要な基準を満たしている必要があります。 1つの基準が満たされなければ、その回答は改善の対象としてフラグが立てられます。 このスコア付け方法により、完全かつ適切にサポートされている応答のみが上位のマークを受け取ります。 これに対し、不完全な回答やサポート証拠がない回答は、スコアが低くなります。
意味の比較 は、エージェントの回答が予想される応答の意図された意味をどの程度反映しているかを評価します。 正確な表現に焦点を当てるのではなく、意図の類似性、つまり言葉の背後にある考えや意味を比較し、反応が期待された内容とどれだけ一致しているかを判断します。
合格スコアのしきい値を設定して、回答の合格スコアを構成するものを決定できます。 デフォルトの合格スコアは50です。 比較意味テスト メソッドは、回答を異なる正しい方法で表現できるが、全体的な意味または意図が引き続き発生する必要がある場合に便利です。
しきい値と合格率
テスト ケースの成功は、選択したテスト 方法と、スコアを渡すために設定したしきい値によって異なります。
完全一致を除く各テスト メソッドは、エージェントの回答がその条件をどの程度満たしているかを反映する評価基準のセットに基づいて数値スコアを生成します。 しきい値は、パスと失敗を分離するカットオフ スコアです。 類似度の合格点を設定し、テスト ケースの意味を比較できます。
完全一致は、数値スコアを生成しない厳密なテスト メソッドです。答えは渡すために正確に一致する必要があります。 テスト ケースのしきい値を選択することで、評価の厳密さまたは緩さを決定します。 各テスト 方法ではエージェントの回答が異なる方法で評価されるため、評価基準に最も適したものを選択することが重要です。