Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Сигналы качества дают лексику для диагностики того, что работает, а что нет в ответах вашего агента. Вместо того чтобы начинать с общего чек-листа, выводите сигналы качества из наблюдаемых закономерностей во время оценки. Такой подход гарантирует, что ваши сигналы отражают то, что действительно важно для вашего конкретного агента.
Почему качественные сигналы имеют значение
С помощью сигналов качества вы можете быстрее выявлять причины сбоев («сбой по сигналу "Персонализация"» даёт больше возможностей для принятия мер, чем «ответ был неверным»), отслеживать улучшения по каждому сигналу с течением времени и чётко доносить информацию до заинтересованных сторон. Когда кто-то говорит «агент недостаточно хорош», вы можете ответить конкретно: «Точность политики составляет 95%, а персонализация упала до 75% после последнего обновления.»
Почему бы не начать с общего чек-листа качества?
Список вроде «Точность, Полнота, Релевантность, Тон, Безопасность» звучит разумно, но он слишком абстрактен, чтобы быть применимым. Что означает «точность» для агента по юридическим исследованиям по сравнению с ассистентом по творческому письму? Важные качественные сигналы — и то, как вы их измеряете — полностью зависят от того, чем занимается ваш агент и кому он служит.
Вместо того чтобы сразу выбирать сигналы качества, пусть результаты оценки подскажут вам, что важно. Когда вы запускаете тестовые случаи против вашего агента (этап 2 оценки фреймворка), из успехов и неудач появляются закономерности. Эти паттерны становятся вашими сигналами качества.
Как возникают качественные сигналы
По мере прохождения базового тестирования вы замечаете повторяющиеся темы в результатах. Некоторые тестовые случаи проваливаются, потому что агент предоставляет устаревшую информацию. Другие терпят неудачу, потому что агент игнорирует контекст пользователя. Третьи добиваются успеха именно потому, что агент ссылается на свои источники или предлагает чёткие дальнейшие шаги. Каждый из этих паттернов указывает на качественный сигнал, который стоит называть и отслеживать.
Агент самообслуживания сотрудников: от шаблонов к сигналам
Вот как команда агента самообслуживания сотрудников вывела сигналы качества на основе базовых результатов:
| Наблюдение | Сигнал качества |
|---|---|
| ESS-001, ESS-002 пройдены: корректная информация политики | Точность политики: правильна ли информация? |
| ESS-001 пройден: приведена ссылка на руководство | Атрибуция источника: указывается ли источник? |
| ESS-003, ESS-004 не пройдены: проигнорирован контекст пользователя | Персонализация: использует ли он контекст сотрудника? |
| ESS-005, ESS-006 прошли; ESS-009 изначально провалился | Уместность эскалации: Понимает ли система, когда нужно перенаправить запрос? |
| ESS-007 прошёл; ESS-008 провалился | Защита конфиденциальности: защищает ли она конфиденциальные данные? |
| ESS-001 прошёл: Пользователя объяснили, как проверять баланс | Активация действий: даёт ли она следующие шаги? |
Сигналы качества с конкретными примерами
После того как вы определите сигналы качества, сделайте их конкретными, описав, что означает успешное и неуспешное прохождение для каждого сигнала.
| Качественный сигнал | Прохождение выглядит как | Как выглядит сбой |
|---|---|---|
| Точность политики | "15 дней оплачиваемого отпуска" (корректно) | «10 дней оплачиваемого отпуска» (устарело) |
| Источник атрибуции | «Согласно справочнику для сотрудников...» | Источник не указан |
| Персонализация | Отпуска в Великобритании для британских сотрудников | Отпуска в США для сотрудников в Великобритании |
| Целесообразность эскалации | Перенаправляет запросы по закону об отпуске по семейным и медицинским причинам (FMLA) в отдел кадров | Пытается объяснить правила FMLA |
| Защита конфиденциальности | «Я не могу делиться информацией о зарплате» | Раскрывает информацию о зарплате или проявляет неуверенность |
| Активация действий | «Проверка баланса в Workday» | Ответы, но нет следующего шага |
Эти сигналы относятся только к агенту самообслуживания сотрудников. Ассистент по программированию будет иметь совершенно другие сигналы, такие как корректность кода, лучшие практики безопасности и ясность объяснений. Специалист службы поддержки может отслеживать долю решённых обращений и тональность. Ваши сигналы должны отражать уникальное назначение вашего агента.
Следующий шаг
Узнайте, как построить повторяющийся, основанный на данных цикл оценки, который улучшает вашего агента с каждой итерацией.