[この記事はプレリリース ドキュメントであり、変更されることがあります。]
Copilot Studioでは、エージェントのパフォーマンスを評価するための テストケースセットを作成できます 。 テスト ケースを使用すると、エージェントの実際のシナリオをシミュレートできるため、エージェントがアクセスできる情報に基づいて、エージェントが尋ねる質問に対する回答の精度、関連性、および品質を測定できます。 テストセットの結果を活用することで、エージェントの挙動を最適化し、エージェントがあなたのビジネスおよび品質要件を満たしていることを検証できます。
Important
この記事には、Microsoft Copilot Studio のプレビュー ドキュメントが含まれており、変更される可能性があります。
プレビュー機能は運用環境向けではなく、機能が制限されている可能性があります。 これらの機能は公式リリースの前に利用できるため、早期にアクセスして フィードバックを提供できます。
運用対応エージェントを構築する場合は、 Microsoft Copilot Studio の概要を参照してください。
評価はエージェントにメッセージを送り、返答を記録し、それを期待される返答や品質基準と比較することで行われます。 より多くのメッセージをテストケースとして使うことで、エージェントがさまざまなユースケースをどのように扱っているかをよりよく把握できます。
手動でテストケースを作成したり、スプレッドシートでインポートしたり、AIを使ってエージェントの設計や知識に基づいてメッセージを生成することもできます。 その後、テストセット内の各テストケースごとにエージェントの応答の質をどのように測定するかを選択できます。 テストケースの作成に関する詳細は「 テストセットを作成」をご覧ください。
Important
テスト結果はCopilot Studioで89日間閲覧可能です。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。
新しいテスト セットを作成する
エージェントの 評価 ページにアクセスしてください。
新しいテストセットを選択します。
[ 新しいテスト セット ] ページで、テスト セットの作成に使用する方法を選択します。
- 簡単な質問ですが 、Copilot Studioにエージェントの説明、指示、機能に基づいて自動的にテストケースを作成してもらうように設定しています。 このオプションでは、小規模で迅速な評価を行うための10問の質問を生成したり、より大きなテストセットを構築したりすることができます。
- Copilot Studioがエージェントの知識ソースやトピックを使ってテストケースを生成するためのフル質問セットです。
-
テストチャットの会話を使って、テストチャットで提供した質問を自動的にテストセットに入力してください。 この方法は最新のテストチャットの質問を利用します。 また、評価
ボタンを使ってテストチャットから評価を開始することもできます。
- ファイルからテストケースをインポートするには、ファイルを指定エリアにドラッグし、ファイルをアップロードするために「ブラウズ」を選択するか、他のアップロードオプションのいずれかを選択できます。
- あるいは、自分で問題を書 いてテストセットを作成するのも良いでしょう。 テスト セットを編集 する手順に従って、テストケースを追加・編集してください。
テストケースの詳細を編集してください。 一般的な品質以外の方法を使うすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。
[ 名前] に、テスト セットの名前を入力します。
ユーザープロファイルを選択し、このテストセットで使用するアカウントを選択するか追加するか、認証なしで続けてください。 評価では、このアカウントを使ってテスト中に知識源やツールと接続します。 ユーザープロファイルの追加および管理に関する情報については、「 ユーザープロファイルと接続の管理」をご覧ください。
注
自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。
- テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。
テストケース生成の制限
テストケースのグループを生成すると、1つ以上の質問がエージェントのコンテンツモデレーション設定に違反するため、生成が失敗することがあります。 理由は次のとおりです。
- エージェントの指示やトピックがモデルにフラグを立てるコンテンツを生成する方向に導きます
- 接続された知識源には、機密性や制限付きコンテンツが含まれます
- エージェントのコンテンツ管理設定は非常に厳格です
知識源の調整、指示の更新、モデレーション設定の変更など、問題解決のために別の行動を試す必要があるかもしれません。
知識やトピックからテストセットを生成する
エージェントがすでに持っている情報や会話の情報源を使って質問を生成することで、エージェントをテストできます。 このテスト方法は、エージェントが既に持っている知識やトピックをどのように活用しているかをテストするのには適していますが、情報のギャップを探すには向いていません。
以下の知識ソースを使ってテストケースを作成できます:
- テキスト
- マイクロソフトワード
- マイクロソフト Excel
テスト問題は最大293KBまでファイルサイズで作成可能です。
テストセットを生成するには:
新しいテストセットのページで、フル問題セットを選択します。
知識かトピックのどちらかを選択します。
- ナレッジは 生成オーケストレーションを使うエージェントに最も効果的です。 この方法は、エージェントの知識源から選択して質問を作成します。
- トピックは クラシックなオーケストレーションを使うエージェントに最適です。 この方法はエージェントのトピックを使って質問を作り出します。
知識については、質問生成に含めたい知識源を選択します。
- 知識とトピックについては、スライダーを選択してドラッグして生成する質問数を選択します。
[Generate] \(生成) を選択します。
テストケースの詳細を編集してください。 一般的な品質以外の方法を使うすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。
このテストセットで使いたいアカウントを選択するか接続するには 、「プロファイル管理 」を選択してください。 認証用のアカウントを追加しなくても続けることもできます。
注
自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。
Copilot Studioがテストケースを生成する際、接続されたアカウントの認証情報を使い、エージェントの知識ソースやツールにアクセスします。 生成されたテストケースや結果には、接続されたアカウントがアクセスできる機密情報が含まれることがあり、この情報はテストセットにアクセスできるすべての制作者に閲覧可能です。
- テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。
インポート用のテストセットファイルを作成します
Copilot Studio でテスト ケースを直接ビルドする代わりに、すべてのテスト ケースを含むスプレッドシート ファイルを作成し、それらをインポートしてテスト セットを作成できます。 各テストの質問を作成し、使用するテスト メソッドを決定し、各質問の予想される応答を示すことができます。 ファイルの作成が完了したら、ファイルを .csv または .txt ファイルとして保存し、Copilot Studio にインポートします。
Important
- ファイルには、最大 100 個の質問を含めることができます。
- 各質問には、スペースを含めて最大 1,000 文字を指定できます。
- ファイルは、コンマ区切り値 (CSV) またはテキスト形式である必要があります。
インポート ファイルを作成するには:
スプレッドシート アプリケーション (Microsoft Excel など) を開きます。
最初の行に、次の見出しをこの順序で追加します。
- Question
- 予期される応答
- テスト方法
[質問] 列にテストの 質問 を入力します。 各質問は、スペースを含めて 1,000 文字以下にすることができます。
[テスト メソッド] 列に、各質問に対して次のいずれかの テスト メソッド を入力します。
- 一般的な品質
- 意味を比較する
- Similarity
- 完全一致
- 部分一致
[予期される回答] 列に、各質問の 予想される回答 を入力します。 テスト セットをインポートする場合、予期される応答は省略可能です。 ただし、一致、類似性、およびテスト ケースを意味する比較を実行するには、予期される応答が必要です。
ファイルは .csv ファイルまたは .txt ファイルとして保存します。
「 Create a new test set」の手順に従ってファイルをインポートします。