次の方法で共有


品質信号の導出

質の高いシグナルは、エージェントの反応で何が効果的で何がそうでないかを診断するための語彙を提供します。 一般的なチェックリストから始めるのではなく、評価中に観察したパターンから質の高いシグナルを導き出しましょう。 このアプローチにより、シグナルは特定のエージェントにとって本当に重要なことを反映します。

なぜ品質の高い信号が重要なのか

質の高いシグナルがあれば、失敗をより早く診断できます(「パーソナライズで失敗した」という方が「答えが間違っていた」よりも実行可能です)、時間経過による改善をシグナルで追跡し、ステークホルダーと明確にコミュニケーションを取ることができます。 「エージェントは十分でない」と言われたら、具体的に「ポリシーの正確さは95%ですが、前回のアップデート後にパーソナライズは75% に落ちました」と答えることができます。

なぜ一般的な品質チェックリストから始めないのでしょうか?

「正確さ、完全性、関連性、トーン、安全性」といったリストは合理的に聞こえますが、抽象的すぎて実行に移すことはできません。 リーガルリサーチエージェントとクリエイティブライティングアシスタントの違いで「正確さ」とは何を意味するのでしょうか? 重要な品質シグナル、そしてそれをどう測定するかは、エージェントが何をし、誰にサービスを提供するかに完全に依存します。

最初から質の高いシグナルを選ぶのではなく、評価結果が何が重要かを教えてくれ。 エージェントに対してテストケースを実行すると(評価フレームワークのステージ2 )、成功と失敗からパターンが浮かび上がります。 これらのパターンが品質のシグナルとなります。

質の高い信号がどのように生まれるか

ベースラインテストを繰り返していくと、結果に繰り返し現れるテーマに気づきます。 一部のテストケースは、エージェントが古い情報を提供するために失敗します。 また、エージェントがユーザーのコンテキストを無視して失敗するものもあります。 さらに、代理人が情報源を明示したり、明確な次のステップを示したりすることで成功するものもあります。 これらのパターンは、名前を付けて追跡する価値のある高品質な信号を示しています。

従業員 Self-Service エージェント:パターンから信号へ

従業員 Self-Service エージェントチームがベースライン結果から品質シグナルを導き出した方法は以下の通りです:

観察 品質信号
ESS-001、ESS-002合格:正しいポリシー情報 ポリシーの正確性:情報は正しいか?
ESS-001 通過:ハンドブックを引用 出典の出典:出典を明記していますか?
ESS-003、ESS-004 失敗:ユーザーコンテキストを無視 パーソナライズ:従業員の文脈を利用しているのか?
ESS-005、ESS-006は通過しました。ESS-009は当初失敗しました エスカレーションの適切性:いつルーティングすべきかを知っているか?
ESS-007は合格した。ESS-008の失敗 プライバシー保護:機密データを保護するのか?
ESS-001が合格しました:ユーザーに残高の確認方法を教えました 行動の実現:次のステップを示すか?

具体的な例を含む高品質信号

品質信号に名前を付けたら、それぞれの信号で合格・失敗の基準を定義して具体化しましょう。

品質の高い信号 パスはこう見える 失敗は
方針の正確性 「15日間有給休暇」(正解) 「10日間有給休暇」(旧時)
出典の出典 「従業員ハンドブックによると...」 出典は一切記載されていません
パーソナル化 イギリスの従業員のためのイギリスの祝日 イギリスの従業員のアメリカの祝日
エスカレーションの適切性 家族・医療休暇法(FMLA)から人事へのルート FMLAの規則を説明しようとしています
プライバシー保護 「給料の情報は共有できません」 給与を分け合うか、ためらうか
アクション・イネーブルメント 「Workdayの残高を確認する」 答えはあるが次のステップはない

これらの信号は従業員 Self-Service エージェントに特有のものです。 コーディングアシスタントはコードの正確性、セキュリティのベストプラクティス、説明の明確さなど、まったく異なるシグナルを持っています。 カスタマーサポート担当者は、解決率や感情を追跡することがあります。 あなたのシグナルはエージェントの独自の目的を反映すべきです。

次のステップ

繰り返し可能なデータ駆動型評価ループを構築し、反復ごとにエージェントを改善する方法を学びましょう。