次の方法で共有


テストを実行し、結果を見る

[この記事はプレリリース ドキュメントであり、変更されることがあります。]

テストセットの結果を活用することで、エージェントの挙動を最適化し、エージェントがあなたのビジネスおよび品質要件を満たしていることを検証できます。 また、エージェントの改善に合わせて複数回テストセットを実行して結果を比較することもできます。

テスト結果はCopilot Studioで89日間閲覧可能です。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。

Important

この記事には、Microsoft Copilot Studio のプレビュー ドキュメントが含まれており、変更される可能性があります。

プレビュー機能は運用環境向けではなく、機能が制限されている可能性があります。 これらの機能は公式リリースの前に利用できるため、早期にアクセスして フィードバックを提供できます。

運用対応エージェントを構築する場合は、 Microsoft Copilot Studio の概要を参照してください。

テスト セットを実行する

テストセットを作成した後、実行または再実行して時間や反復の結果 を比較 できます。 テストは実行に数分かかることがあります。 一度に一つのテストを実施できます。

Important

ユーザー認証を使用するエージェント評価は、Microsoft Copilot Studioコネクタを通じてアクセスが必要です。 管理者がこの接続をオフにすると、評価ツールを使ってテストを実行できません。 詳細は Copilot Studioコネクターおよびデータグループをご覧ください。

  1. エージェントの 評価 ページにアクセスしてください。

  2. 以下のいずれかの操作を行うことでテストを実行してください:

    • テストセット の作成 または 編集 の最後に、「 評価」を選択します。
    • 「最近の結果」セクションでは、以下のいずれかを行うことでテスト結果を評価することができます。
      • 評価したいテスト結果にカーソルを合わせ、3つの点(...)を選択し、 再度「テストセットを評価」を選択します。
      • テスト結果を選択して開き、評価サマリーの3つの点(...)を選択し、再度テストセットを評価を選択します。

    テストセットのユーザープロファイルに接続が壊れている場合や、ユーザープロファイルがない場合、「 接続管理 」ダイアログが表示されます。 テストにユーザープロファイルを使う必要はありません。 ただし、プロフィールを使う場合は、すべての接続が正常に動作している必要があります。 接続の修正については、「 ユーザープロファイルと接続の管理」をご覧ください。

評価は数分で完了することもあります。 テスト結果が閲覧可能になると、Copilot Studioにアラートが表示されます。

検査結果に詳しく見てみましょう

テスト セットを使用して評価を実行するたびに、Copilot Studio:

  1. 接続されたユーザー アカウントを使用してエージェントとの会話をシミュレートし、テスト ケースの各質問をエージェントに送信します。

  2. エージェントの応答を収集します。

  3. 各対応の成功を測定・分析します。 各テスト ケースは、テスト ケースの条件に基づいて成功または失敗を受け取ります。

  4. テスト セットの Pass/ レートに基づいて合格率スコアを割り当てます。

各テストセットの 合格率 は、エージェントの 評価 ページの 「最近の結果」で確認できます。 その他のテスト セットの実行を表示するには、[ すべて表示] を選択します。

以前の評価の一覧を示すスクリーンショット。

テストケースの詳細な解析をご覧ください

テスト結果を開くと、テスト実行の詳細、テストで使用されたクエリのリスト、エージェントの応答、 合格 または 不合格 のスコアを見ることができます。

リストからテストケースを選択すると、各回答の詳細な評価が見られます。

完了した評価内のテスト ケースの一覧を示すスクリーンショット。

評価には、期待される反応と実際の回答、検査結果の背景にある理由、そして担当者が回答するために使用した知識、トピック、ツールが含まれます。

引用された知識やトピックを選択して開いてください。

テスト ケースの詳細な結果と評価を示すスクリーンショット。

検査結果を比較する

エージェントのバージョンを1つテストして、変更の前後でパフォーマンスの変化を確認したいです。 同じテストセットの2回の実行は 比較 ツールを使って比較できます。

比較を見るには、同じテストセットを少なくとも2回実行する必要があります。

  1. エージェントの 評価 ページで、比較の基準にしたい テストラン「最近のテスト結果」を開いてください。

  2. 比較」 ドロップダウンを選択し、現在進行中のテスト結果と比較したいテストランの日時を選択します。

ドロップダウンで比較するスクリーンショット。

テストケースリストでは、矢印で失敗から合格に変わったテストケース結果が改善したか、合格から失敗に変わったことで改善したを示します。

詳細を見るにはテストケースを選択してください。 評価サマリーペインでは、テストスコアの直接比較が見られ、現在のテストランの結果が上に表示されます。

2つのテストセットの結果を比較したスクリーンショットです。

テスト結果をエクスポートする

テスト結果をCSVファイルにエクスポートできます。 ファイルには、各テストケースごとに質問、期待される回答(該当する場合)、テスト方法、合格スコア(該当する場合)、エージェントの回答、テスト結果、分析が一覧化されています。

  1. エージェントの 評価 ページにアクセスしてください。
  2. 最近の結果セクションでは、以下のいずれかを行うことでテスト結果をエクスポートできます:
    • エクスポートしたいテストケースにカーソルを合わせ、3つの点を選択し、テスト結果をエクスポートを選択します。
    • テストケースを選択して開き、評価要約の3つの点(...)を選択し、「テスト結果のエクスポート」を選択してください。

テスト結果はテスト セットの名前.csv