人によるエージェントの評価を設定する (プレビュー)

Important

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの使用条件を参照してください。

この記事では、Foundry エージェントの人間による評価を設定する方法について説明します。 エージェント ビルダーとして、関心のある重要な側面に重点を置いた評価質問テンプレートを作成し、エージェントのプレビュー エクスペリエンスでエージェントの応答ごとに回答できるようにすることができます。 これにより、定義されたテンプレートに基づいて、ピア、データ サイエンティスト、またはコンプライアンス チーム メンバーによる人間による評価が可能になります。 評価が完了したら、Foundry ポータルから直接結果を表示してダウンロードし、さらに分析することができます。

[前提条件]

人間の評価テンプレートを作成する

人による Foundry エージェントの評価を開始するにはまず、レビュー担当者に回答してもらいたい、エージェントの応答に基づいた一連の質問を含むテンプレートを定義します。

テンプレートを作成する手順

  1. [ エージェント] タブ のエージェント テーブルから、評価するエージェントを選択します。
  2. 「評価」の下にある「人間評価」タブに移動します。
  3. [ 新しいテンプレートの作成] を選択して、テンプレートの作成プロセスを開始します。
  4. [ 人間評価テンプレートの作成 ] ポップアップで、名前と説明を割り当て、サンプルの質問を編集または削除し、評価の目標に基づいて新しい質問を追加します。 サポートされている質問の種類には、高評価/低評価、スライダー、選択式、自由形式のテキストが含まれます。
  5. テンプレートを構成したら、[ 作成 ] を選択して最終処理を行います。

評価テンプレートを管理する

評価のニーズに基づいて、複数の評価テンプレートを作成できます。 テンプレート テーブルを使用すると、テンプレートを編集、削除、アクティブまたは非アクティブとして設定できます。

テンプレートの管理

  • テンプレートは、テンプレート テーブルの [編集 ] ボタンを使用して編集できます。 テンプレートが編集可能なポップアップで開き、更新プログラムが表示されます。
  • テンプレート テーブルの [削除] ボタンを使用して、テンプレートを 削除 できます。

    削除すると、テンプレートとそれに関連付けられている評価結果を UI から取得できなくなります。

  • テンプレートをアクティブとして設定するには、テンプレート テーブルで [アクティブとして設定 ] を選択します。 任意の時点でアクティブにできるテンプレートは 1 つだけです。 新しいテンプレートをアクティブにすると、前のテンプレートが自動的に非アクティブ化されます。 また、[非 アクティブとして設定] を選択して、現在アクティブなテンプレートを非アクティブにして、人間の評価結果のキャプチャを停止することもできます。

人間の評価を行う

評価テンプレートが構成され、ターゲット エージェントに対してアクティブとして設定されると、人間のレビュー担当者はプレビュー Web アプリ機能を使用して評価を開始できます。

人間のレビュー担当者は、プレビュー Web アプリを対話型操作するために、エージェントが存在する Foundry プロジェクトにアクセスする必要があります。

人間の評価を行う手順

  1. エージェント ビルダー エクスペリエンスの右上隅にある [プレビュー ] を選択して、Web アプリ インターフェイスでエージェントを開きます。
  2. 入力を入力し、[ 送信 ] を選択してエージェントの実行をトリガーすることで、エージェントのテストを開始します。
  3. エージェントが応答したら、[ フィードバック ] ボタンを選択して、その応答に対する人間による評価を提供します。
    • サイド パネルが表示され、エージェント ビルダーによって構成された評価テンプレートが表示されます。
    • 校閲者は、フォームの一部またはすべての質問に回答できます。
  4. 完了したら、[ 保存] を選択して、確認するエージェント ビルダーの評価データを格納します。
    • [ キャンセル] を 選択して回答を破棄します。
  5. 新しい出力のエージェントと対話するか、以前の応答に移動して、追加の応答の評価を続行します。
    • レビュー担当者は、特定の応答の評価をスキップしたり、必要に応じて同じエージェント応答に対して複数の評価を提供したりできます。

人間の評価結果を確認する

人間のレビュー担当者が評価を完了すると、エージェント ビルダーは Foundry ポータルを使用して結果をプレビューおよびダウンロードして詳細な分析を行うことができます。

結果を確認する手順

  1. [ ヒューマン評価 ] タブ内のテンプレート テーブルに移動し、結果を確認するテンプレートを選択します。
  2. テンプレートを選択すると、対応するすべての評価結果が [ 評価結果 ] セクションに表示されます。 各インスタンスは、参照用のタイムスタンプと共に表示されます。
  3. 評価インスタンスを選択すると、[JSON 出力] セクションにその JSON の概要が表示されます。 JSON には次のものが含まれます。
    • タイムスタンプ
    • ユーザー プロンプト
    • エージェントの応答
    • 評価テンプレートからの質問
    • 校閲者の回答
  4. テンプレートのすべての評価結果をダウンロードするには、テンプレートを選択した後に [結果のダウンロード ] を選択します。 結果は、各評価インスタンスの JSON ビューのすべての情報を含む CSV ファイルとしてエクスポートされます。

評価データは Application Insights に格納され、その保持ポリシーに従います。 データを長期的に保持する必要がある場合は、データをダウンロードして他の場所に保存します。