[この記事はプレリリース ドキュメントであり、変更されることがあります。]
テストセットの作成中または作成後に、問題の文言を変更したり、異なるテスト方法を選択したり、期待される回答を必要に応じて修正したりしてテストケースを編集できます。 各テスト ケースの横にあるチェック ボックスをオンにすると、複数のテスト ケースを選択して一括で編集できます。
エージェントの応答を評価するには、品質、類似性、テキストの一致という 3 つのテスト方法 (グレーザーとも呼ばれます) から選択できます。 さまざまなテスト メソッドの詳細については、テスト メソッドを参照してください。
テストセット内のテストケースを編集する
エージェントの 評価 ページでテストセットを選択してください。
テスト セットで、編集するテスト ケースを選択します。
- 右側のウィンドウで、[質問] フィールドのテキストを編集して、 質問 の文言を変更します。
- 使用する テスト 方法 を選択します。
品質:
関連性、根拠、完全性に基づいて回答を評価するには、[ 全般品質 ] を選択します。
[ 意味の比較] を選択して、予想される応答の意味をどの程度適切にキャプチャするかに基づいて回答を評価します。 [ 合格スコア] で、回答の合格スコアを構成するもののしきい値を設定できます。
[ 予期される応答 ] ボックスに、テスト メソッドがエージェントの回答を評価する応答を指定します。
類似性: コサイン類似度メトリックを使用して、エージェントの回答が予想される応答の文言と意味とどの程度類似しているかを評価します。 0 から 1 のスコアが決定されます。1 は密接に一致し、0 は一致しないことを意味します。 [ 合格スコア] で、回答の合格スコアを構成するもののしきい値を設定できます。
[ 予期される応答 ] ボックスに、テスト メソッドがエージェントの回答を評価する応答を指定します。
-
[ 完全一致 ] を選択して、予想される応答に対してエージェントの回答を評価します。合格スコアは、エージェントの回答が定義済みの予想応答と正確に一致したことを意味します。
[ 予期される応答 ] ボックスに、テスト メソッドがエージェントの回答を評価する応答を指定します。
キーワード マッチ を選択してエージェントの回答を期待応答と比較し、合格スコアはエージェントの回答に定義された期待回答の単語やフレーズが含まれていることを意味します。
[ 予期される応答 ] ボックスに、テスト メソッドがエージェントの回答を評価する語句またはキーワードを指定します。 複数のキーワードまたは語句を追加するには、[ 追加] を選択 し 、演算子または ボックス間を 選択し、キーワードまたは語句を指定します。
を選択してを適用します。
変更が完了したら、テストセットを保存するために保存するか、テストを実行するために評価を選択します。
テストセットにさらにテストケースを追加する
テストセットを作成または編集する際に、さらに多くのテストケースを追加できます。
エージェントの 評価 ページでテストセットを選択してください。
テストケースを生成または手動で追加してください。
- 新しいテストケースを選択して編集して詳細を追加してください。