次の方法で共有


エージェントを評価するためのテストセットを作成または修正しましょう

[この記事はプレリリース ドキュメントであり、変更されることがあります。]

テスト セット は最大100の テストケースのグループで構成されています。 エージェント評価を実行する際、テストセットを選択し、Copilot Studioはそのセット内のすべてのテストケースをエージェントに対して実行します。

テストセット内で手動でテストケースを作成したり、スプレッドシートでインポートしたり、AIを使ってエージェントの設計やリソースに基づいてメッセージを生成することもできます。 その後、テストセット内の各テストケースごとにエージェントの応答の質をどのように測定するかを選択できます。

エージェント評価の仕組みについての詳細は 「エージェント評価について」をご覧ください。

Important

テスト結果はCopilot Studioで89日間閲覧可能です。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。

新しいテスト セットを作成する

  1. エージェントの 評価 ページにアクセスしてください。

  2. 新しいテストセットを選択します。

    評価ページの「新しいテストを作成」ボタンのスクリーンショット。

  3. 新しいテストセットのページで、テストセットを作成するために使いたいメソッドを選択してください。 テストセットは最大100のテストケースを持てます。

    • 簡単な質問ですが 、Copilot Studioにエージェントの説明、指示、機能に基づいて自動的にテストケースを作成してもらうように設定しています。 このオプションでは、小規模で迅速な評価を行うための10問の質問を生成したり、より大きなテストセットを構築したりすることができます。
    • Copilot Studioがエージェントの知識ソースやトピックを使ってテストケースを生成するためのフル質問セットです。
    • テストチャットの会話を使って、テストチャットで提供した質問を自動的にテストセットに入力してください。 この方法は最新のテストチャットの質問を利用します。 また、評価 ボタンを使ってテストチャットから評価を開始することもできます。 テストチャットの「新しいテストを作成」ボタンのスクリーンショットです。
    • ファイルからテストケースをインポートするには、ファイルを指定エリアにドラッグし、ファイルをアップロードするために「ブラウズ」を選択するか、他のアップロードオプションのいずれかを選択できます。
    • あるいは、自分で問題を書 いてテストセットを作成するのも良いでしょう。 テスト セットを編集 する手順に従って、テストケースを追加・編集してください。
  4. テストケースの詳細を編集してください。 一般的な 品質を除き、メソッドを使用するすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。

  5. [ 名前] に、テスト セットの名前を入力します。

  6. ユーザープロファイルを選択し、このテストセットで使用するアカウントを選択するか追加するか、認証なしで続けてください。 評価では、このアカウントを使ってテスト中に知識源やツールと接続します。 ユーザープロファイルの追加および管理に関する情報については、「 ユーザープロファイルと接続の管理」をご覧ください。

自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。

  1. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。

テストケース生成の制限

テストケース生成は、エージェントのコンテンツモデレーション設定に違反する質問が1つ以上ある場合に失敗することがあります。 理由は次のとおりです。

  • エージェントの指示やトピックがモデルにフラグを立てたコンテンツを生成する方向に導きます。
  • 接続された知識源には、機密性や制限付きコンテンツが含まれます。
  • エージェントのコンテンツ管理設定は非常に厳格です。

問題を解決するために、知識源の調整、指示の更新、モデレーション設定の変更など、さまざまな行動を試してください。

テストセットには最大100のテストケースを含めることができます。

知識やトピックからテストセットを生成する

エージェントがすでに持っている情報や会話の情報源を使って質問を生成することで、エージェントをテストできます。 このテスト方法は、エージェントが既に持っている知識やトピックをどのように活用しているかを検証するのには適していますが、情報のギャップを探すには向いていません。

以下の知識ソースを使ってテストケースを作成できます:

  • テキスト
  • マイクロソフトワード
  • マイクロソフト Excel

最大293KBのファイルを使ってテスト問題を作成できます。

テストセットを生成するには:

  1. 新しいテストセットで「Full question set」を選択してください。

  2. 知識トピックのどちらかを選択します。

  3. 知識については、質問生成に含めたい知識源を選択します。

テストケース生成に含める知識ソースの選択を示すスクリーンショット。

  1. 知識トピックについては、スライダーを選択してドラッグして生成する質問数を選択します。

生成する質問数を選択するためのスライダーのスクリーンショットです。

  1. [Generate] \(生成) を選択します。

  2. テストケースの詳細を編集してください。 一般的な 品質を除き、メソッドを使用するすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。

  3. このテストセットで使いたいアカウントを選択するか接続するには 、「プロファイル管理 」を選択してください。 認証用のアカウントを追加しなくても続けることもできます。

自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。

Copilot Studioがテストケースを生成する際、接続されたアカウントの認証情報を使い、エージェントの知識ソースやツールにアクセスします。 生成されたテストケースや結果には、接続されたアカウントがアクセスできる機密情報が含まれることがあり、この情報はテストセットにアクセスできるすべての制作者に閲覧可能です。

  1. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。

インポート用のテストセットファイルを作成します

Copilot Studio でテスト ケースを直接ビルドする代わりに、すべてのテスト ケースを含むスプレッドシート ファイルを作成し、それらをインポートしてテスト セットを作成できます。 各テストの質問を作成し、使用するテスト メソッドを決定し、各質問の予想される応答を示すことができます。 ファイルの作成が完了したら、ファイルを .csv または .txt ファイルとして保存し、Copilot Studio にインポートします。

Important

  • ファイルには、最大 100 個の質問を含めることができます。
  • 各質問には、スペースを含めて最大 1,000 文字を指定できます。
  • ファイルは、コンマ区切り値 (CSV) またはテキスト形式である必要があります。

インポート ファイルを作成するには:

  1. スプレッドシート アプリケーション (Microsoft Excel など) を開きます。

  2. 最初の行に、次の見出しをこの順序で追加します。

    • Question
    • 予期される応答
    • テスト方法
  3. [質問] 列にテストの 質問 を入力します。 各質問は、スペースを含めて 1,000 文字以下にすることができます。

  4. テスト方法欄には、各問題に対して以下のテスト方法のいずれかを入力してください:

    • 一般的な品質
    • 意味を比較する
    • Similarity
    • 完全一致
    • キーワードマッチ
  5. [予期される回答] 列に、各質問の 予想される回答 を入力します。 テスト セットをインポートする場合、予期される応答は省略可能です。 ただし、一致、類似性、およびテスト ケースを意味する比較を実行するには、予期される応答が必要です。

  6. ファイルは .csv ファイルまたは .txt ファイルとして保存します。

  7. Create a new test set」の手順に従ってファイルをインポートします。