次の方法で共有


複数ターンの会話を使用してテストを実行する

会話評価を使用すると、より長い対話に対するエージェントの一般的な動作を評価できます。 これは、実際のユーザーがエージェントと対話する方法を反映しています。各応答は、進行中の会話内の以前のコンテキストに依存します。 これらの評価を使用して、エージェントがコンテキストを維持できるかどうか、明確化を要求して、複数ステップのタスクを完了できるかどうかを判断できます。

また、 単一の応答評価を実行することもできます。これは、エージェントが特定の質問にどのように回答するか、呼び出す機能、その回答で使用される正確な文言についてエージェントをテストする場合に適しています。

評価では テスト セットが使用されます。 会話評価のテスト セットは、最大 20 個の テスト ケースのグループで構成されます。 エージェント評価を実行する際、テストセットを選択し、Copilot Studioはそのセット内のすべてのテストケースをエージェントに対して実行します。

テスト セット内にテスト ケースを作成するには、スプレッドシートを使用してインポートするか、AI を使用してエージェントの設計とリソースに基づいてメッセージを生成します。 その後、テストセット内の各テストケースごとにエージェントの応答の質をどのように測定するかを選択できます。

エージェント評価の仕組みについての詳細は 「エージェント評価について」をご覧ください。

既存のテストセットの編集方法を学びたい方は、「 テストセットの詳細を変更する」をご覧ください。

Important

テスト結果はCopilot Studioで89日間閲覧可能です。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。

会話テスト セットを作成する

  1. エージェントの 評価 ページにアクセスしてください。

画面サイズの関係でタブ選択が圧縮されたときに評価タブを選択する方法を示すスクリーンショットです。

  1. [ 新しい評価] を選択し、[会話] を選択 します

    テスト セットを作成するために選択された会話オプションを示すスクリーンショット。

  2. 次のいずれかの方法を使用して、複数ターンのテスト ケースを作成できます。

    • クイック会話セット: エージェントの説明、手順、機能に基づいて、10 個の短い会話を自動的に生成します。

    • 完全な会話セット: エージェントの知識または定義されたトピックを使用して会話を生成します。 このオプションでは、短い会話または長い会話の作成を選択できます。

    • テスト チャットを使用する: 最新のテスト チャットをテスト ケースに変換します。

会話テスト セットでは 、最大 20 個のテスト ケースがサポートされます。 各テスト ケースでは、 最大 12 個の合計メッセージ (6 組の質問と回答) がサポートされます。

  1. [ 名前] に、テスト セットの名前を入力します。

  2. 使用する テスト メソッドを 変更または追加します。 会話テスト セットの場合は、 一般的な品質キーワードの一致機能の一致 、または 分類 のカスタム テスト メソッドを追加できます。

    • 新しい方法を追加:
      1. 追加テスト方法」を選択してください。
      2. テストしたいすべての方法を選択し、 その後「OK」を選択してください。 複数の方法を追加することもできます。
      3. 一部の方法では、合格スコアを設定してから OKを選択してください。 合格スコアは合格か失敗かを決定します。
      4. 一部の手法では、各テストケースごとに期待される回答やキーワードを追加する必要があります。 詳細は「 評価方法の選択」をご覧ください。
    • 既存のテスト方法を選択して 編集または削除してください。
    テスト メソッド 対策 テスト セットの種類 ポイントの計算 Configurations
    一般的な品質 特定の基準に基づいてテストケースの応答を評価する方法 単一の応答または会話 100点満点 なし
    意味の比較 テストケースの答えの意味が期待される答えとどれだけ一致しているか 1 つの応答 100点満点 合格点、期待される答え
    能力の利用 テストケースがすべてまたは一部の予想されたリソースを使用したかどうかを確認する 1 つの応答 合格/不合格 期待される能力
    キーワードマッチ テストケースが予想されるキーワードやフレーズのすべてまたは一部を使ったかどうか 単一の応答または会話 合格/不合格 期待されるキーワードやフレーズ
    テキストの類似性 テストケースの回答のテキストが期待される答えとどれだけ一致しているか 1 つの応答 100点満点 合格点、期待される答え
    完全一致 テストケースの答えが期待される答えと正確に一致しているかどうか 1 つの応答 合格/不合格 予想通りの答え
  3. テストケースの詳細を編集してください。 一般的な品質を除くすべてのテスト メソッドには、期待される応答またはキーワードが必要です。 テスト ケースの編集の詳細については、「テスト セットの変更」を参照してください。

  4. ユーザープロファイルを選択し、このテストセットで使用するアカウントを選択するか追加するか、認証なしで続けてください。 評価では、このアカウントを使ってテスト中に知識源やツールと接続します。 ユーザープロファイルの追加および管理に関する情報については、「 ユーザープロファイルと接続の管理」をご覧ください。

自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。

  1. テストケースを作成または編集します。 詳細については、 テスト セット内のテスト ケースの編集に関するページを参照してください。

  2. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。