Important
この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの使用条件を参照してください。
この記事では、Foundry エージェントの人間による評価を設定する方法について説明します。 エージェント ビルダーとして、関心のある重要な側面に重点を置いた評価質問テンプレートを作成し、エージェントのプレビュー エクスペリエンスでエージェントの応答ごとに回答できるようにすることができます。 これにより、定義されたテンプレートに基づいて、ピア、データ サイエンティスト、またはコンプライアンス チーム メンバーによる人間による評価が可能になります。 評価が完了したら、Foundry ポータルから直接結果を表示してダウンロードし、さらに分析することができます。
[前提条件]
- 1つ以上のエージェントを持つFoundryプロジェクト。
- プロジェクトのApplication Insights が構成されました。
人間の評価テンプレートを作成する
人による Foundry エージェントの評価を開始するにはまず、レビュー担当者に回答してもらいたい、エージェントの応答に基づいた一連の質問を含むテンプレートを定義します。
テンプレートを作成する手順
- [ エージェント] タブ のエージェント テーブルから、評価するエージェントを選択します。
- 「評価」の下にある「人間評価」タブに移動します。
- [ 新しいテンプレートの作成] を選択して、テンプレートの作成プロセスを開始します。
- [ 人間評価テンプレートの作成 ] ポップアップで、名前と説明を割り当て、サンプルの質問を編集または削除し、評価の目標に基づいて新しい質問を追加します。 サポートされている質問の種類には、高評価/低評価、スライダー、選択式、自由形式のテキストが含まれます。
- テンプレートを構成したら、[ 作成 ] を選択して最終処理を行います。
評価テンプレートを管理する
評価のニーズに基づいて、複数の評価テンプレートを作成できます。 テンプレート テーブルを使用すると、テンプレートを編集、削除、アクティブまたは非アクティブとして設定できます。
テンプレートの管理
- テンプレートは、テンプレート テーブルの [編集 ] ボタンを使用して編集できます。 テンプレートが編集可能なポップアップで開き、更新プログラムが表示されます。
- テンプレート テーブルの [削除] ボタンを使用して、テンプレートを 削除 できます。
注
削除すると、テンプレートとそれに関連付けられている評価結果を UI から取得できなくなります。
- テンプレートをアクティブとして設定するには、テンプレート テーブルで [アクティブとして設定 ] を選択します。 任意の時点でアクティブにできるテンプレートは 1 つだけです。 新しいテンプレートをアクティブにすると、前のテンプレートが自動的に非アクティブ化されます。 また、[非 アクティブとして設定] を選択して、現在アクティブなテンプレートを非アクティブにして、人間の評価結果のキャプチャを停止することもできます。
人間の評価を行う
評価テンプレートが構成され、ターゲット エージェントに対してアクティブとして設定されると、人間のレビュー担当者はプレビュー Web アプリ機能を使用して評価を開始できます。
注
人間のレビュー担当者は、プレビュー Web アプリを対話型操作するために、エージェントが存在する Foundry プロジェクトにアクセスする必要があります。
人間の評価を行う手順
- エージェント ビルダー エクスペリエンスの右上隅にある [プレビュー ] を選択して、Web アプリ インターフェイスでエージェントを開きます。
- 入力を入力し、[ 送信 ] を選択してエージェントの実行をトリガーすることで、エージェントのテストを開始します。
- エージェントが応答したら、[ フィードバック ] ボタンを選択して、その応答に対する人間による評価を提供します。
- サイド パネルが表示され、エージェント ビルダーによって構成された評価テンプレートが表示されます。
- 校閲者は、フォームの一部またはすべての質問に回答できます。
- 完了したら、[ 保存] を選択して、確認するエージェント ビルダーの評価データを格納します。
- [ キャンセル] を 選択して回答を破棄します。
- 新しい出力のエージェントと対話するか、以前の応答に移動して、追加の応答の評価を続行します。
- レビュー担当者は、特定の応答の評価をスキップしたり、必要に応じて同じエージェント応答に対して複数の評価を提供したりできます。
人間の評価結果を確認する
人間のレビュー担当者が評価を完了すると、エージェント ビルダーは Foundry ポータルを使用して結果をプレビューおよびダウンロードして詳細な分析を行うことができます。
結果を確認する手順
- [ ヒューマン評価 ] タブ内のテンプレート テーブルに移動し、結果を確認するテンプレートを選択します。
- テンプレートを選択すると、対応するすべての評価結果が [ 評価結果 ] セクションに表示されます。 各インスタンスは、参照用のタイムスタンプと共に表示されます。
- 評価インスタンスを選択すると、[JSON 出力] セクションにその JSON の概要が表示されます。 JSON には次のものが含まれます。
- タイムスタンプ
- ユーザー プロンプト
- エージェントの応答
- 評価テンプレートからの質問
- 校閲者の回答
- テンプレートのすべての評価結果をダウンロードするには、テンプレートを選択した後に [結果のダウンロード ] を選択します。 結果は、各評価インスタンスの JSON ビューのすべての情報を含む CSV ファイルとしてエクスポートされます。
注
評価データは Application Insights に格納され、その保持ポリシーに従います。 データを長期的に保持する必要がある場合は、データをダウンロードして他の場所に保存します。