会話テストセットを作成する

会話評価を使用すると、より長い対話に対するエージェントの一般的な動作を評価できます。これは、実際のユーザーがエージェントと対話する方法を反映しています。各応答は、進行中の会話内の以前のコンテキストに依存します。これらの評価を使用して、エージェントがコンテキストを維持できるかどうか、明確化を要求して、複数ステップのタスクを完了できるかどうかを判断できます。

また、単一の応答評価を実行することもできます。これは、エージェントが特定の質問にどのように回答するか、呼び出す機能、その回答で使用される正確な文言についてエージェントをテストする場合に適しています。

評価では テストセットが使用されます。会話評価のテストセットは、最大 20 個の テストケースのグループで構成されます。エージェント評価を実行するときは、テストセットを選択し、Copilot Studio がそのセット内のすべてのテストケースをエージェントに対して実行します。

テストセット内にテストケースを作成するには、スプレッドシートを使用してインポートするか、AI を使用してエージェントの設計とリソースに基づいてメッセージを生成します。その後、テストセット内の各テストケースごとにエージェントの応答の質をどのように測定するかを選択できます。

エージェント評価の仕組みについての詳細は「エージェント評価について」をご覧ください。

既存のテストセットの編集方法を学びたい方は、「テストセットの詳細を変更する」をご覧ください。

Important

テスト結果はCopilot Studioで89日間閲覧可能です。テスト結果を長期間保存するには、結果をCSVファイルにエクスポートしてください。

会話テストセットを作成する

エージェントの評価ページにアクセスしてください。

[ 新しい評価] を選択し、[会話] を選択 します。
次のいずれかの方法を使用して、複数ターンのテストケースを作成できます。
- クイック会話セット: エージェントの説明、手順、機能に基づいて、10 個の短い会話を自動的に生成します。
- 完全な会話セット: エージェントの知識または定義されたトピックを使用して会話を生成します。このオプションでは、短い会話または長い会話の作成を選択できます。
- テストチャットを使用する: 最新のテストチャットをテストケースに変換します。

Note

会話テストセットでは 、最大 20 個のテストケースがサポートされます。各テストケースでは、 最大 12 個の合計メッセージ (6 組の質問と回答) がサポートされます。

[ 名前] に、テストセットの名前を入力します。

使用するテストメソッドを変更または追加します。会話テストセットの場合は、 一般的な品質、 キーワードの一致、 機能の一致 、または分類のカスタムテストメソッドを追加できます。

新しい方法を追加:
1. 「 追加テスト方法」を選択してください。
2. テストしたいすべての方法を選択し、 その後「OK」を選択してください。複数の方法を追加することもできます。
3. 一部の方法では、合格スコアを設定してから OKを選択してください。合格スコアは合格か失敗かを決定します。
4. 一部の手法では、各テストケースごとに期待される回答やキーワードを追加する必要があります。詳細は「評価方法の選択」をご覧ください。
既存のテスト方法を選択して編集または削除してください。

テストメソッド	メジャー	テストセットの種類	ポイントの計算	Configurations
一般的な品質	特定の基準に基づいてテストケースの応答を評価する方法	単一の応答または会話	100点満点	なし
意味の比較	テストケースの答えの意味が期待される答えとどれだけ一致しているか	単一応答	100点満点	合格点、期待される答え
能力の利用	テストケースがすべてまたは一部の予想されたリソースを使用したかどうかを確認する	単一応答	合格/不合格	期待される能力
キーワードマッチ	テストケースが予想されるキーワードやフレーズのすべてまたは一部を使ったかどうか	単一の応答または会話	合格/不合格	期待されるキーワードやフレーズ
テキストの類似性	テストケースの回答のテキストが期待される答えとどれだけ一致しているか	単一応答	100点満点	合格点、期待される答え
完全一致	テストケースの答えが期待される答えと正確に一致しているかどうか	単一応答	合格/不合格	予想通りの答え
カスタム	テストケースの応答が定義された条件または期待値を満たしているかどうか。	単一の応答または会話	合格/不合格 (定義されたラベル条件に合格)	名前、評価手順、ラベル

テストケースの詳細を編集してください。 一般的な品質を除くすべてのテストメソッドには、期待される応答またはキーワードが必要です。テストケースの編集の詳細については、「テストセットの変更」を参照してください。
ユーザープロファイルを選択し、このテストセットで使用するアカウントを選択するか追加するか、認証なしで続けてください。評価では、このアカウントを使ってテスト中に知識源やツールと接続します。ユーザープロファイルの追加および管理に関する情報については、「ユーザープロファイルと接続の管理」をご覧ください。

Note

自動テストは、選択したテストアカウントの認証を使用します。エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。

テストケースを作成または編集します。詳細については、テストセット内のテストケースの編集に関するページを参照してください。
テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「評価」を選択してテストセットを即座に実行します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-01