Об оценке агента

По мере того как агенты ИИ берут на себя ключевые роли в бизнес-процессах, необходимость в надёжном и повторяемом тестировании становится крайне важной. Оценка агента позволяет создавать тесты , которые имитируют реальные сценарии для вашего агента. Эти тесты охватывают больше вопросов и разговоров быстрее, чем ручное индивидуальное тестирование. Затем вы можете измерить точность, релевантность и качество ответов взаимодействия вашего агента, исходя из информации, к которой агент имеет доступ. Используя результаты тестового набора, вы можете оптимизировать поведение вашего агента и подтвердить, что он соответствует требованиям вашего бизнеса и качества.

Зачем использовать автоматизированное тестирование?

Оценка агентов обеспечивает автоматизированное структурированное тестирование. Это помогает выявлять проблемы на ранних этапах, снижает риск ошибочных ответов и поддерживает качество по мере развития агента. Этот процесс обеспечивает автоматизированный, повторяемый вид контроля качества в тестировании агентов. Это гарантирует, что агент соответствует стандартам точности и надёжности вашего бизнеса, а также обеспечивает прозрачность в его работе. У него другие сильные стороны, чем тестирование через тестовый чат.

Вы запускаете оценки и видите результаты с помощью интерфейса Copilot Studio через Power Platform REST API или через добавление действий в инструментах, потоках или Power Automate.

Оценка агента измеряет корректность и эффективность, а не этику ИИ или проблемы с безопасностью. Агент может пройти все оценочные тесты, но всё равно, например, дать неподходящий ответ на вопрос. Клиентам всё равно следует использовать ответственные обзоры ИИ и фильтры безопасности контента; Оценки не заменяют эти отзывы и фильтры.

Ограничения для облачного сообщества в правительстве

Оценка агентов в условиях Government Community Cloud (GCC) имеет следующие ограничения:

  • Создатели не могут добавить пользовательский профиль в свои тестовые наборы. Однако создатели всё ещё могут проводить оценки без профиля пользователя.

  • Создатели не могут использовать метод теста сходства для оценок. Все остальные методы тестирования доступны.

Как работает оценка агентов

Copilot Studio использует тестовый случай для каждой оценки агента. Тестовый случай — это единое взаимодействие, которое моделирует, как пользователь будет взаимодействовать с вашим агентом. Взаимодействие может состоять из одного вопроса или целого разговора.

Тестовый случай также может включать ответ, который вы ожидаете от агента. Рассмотрим пример.

  • Вопрос: Какие у вас рабочие часы?

  • Ожидаемый ответ: Мы работаем с 9:00 до 17:00 с понедельника по пятницу.

Используя оценку агентов, вы можете генерировать, импортировать или вручную писать группу тестовых случаев. Эта группа тестовых случаев называется тестовым набором. Тестовый набор позволяет вам:

  • Запускайте несколько тестовых кейсов, охватывающих широкий спектр возможностей одновременно, вместо того чтобы задавать агенту по одному вопросу за раз.

  • Анализируйте работу вашего агента с легко воспринимаемым агрегированным результатом и также увеличивайте внимание на отдельных тестовых случаях.

  • Тестируйте изменения в своих агентах, используя тот же набор тестов, чтобы иметь объективный стандарт для измерения и сравнения изменений в производительности.

  • Быстро создавайте новые тестовые наборы или модифицируйте существующие, чтобы покрыть меняющиеся возможности или требования агентов.

Каждый набор тестов может оценивать ваш агент с помощью нескольких методов одновременно.

Вы также можете выбрать профиль пользователя, который будет играть роль стимулируемого пользователя. Агент может быть настроен так, чтобы реагировать на разных пользователей по-разному или предоставлять доступ к ресурсам по-разному.

Когда вы выбираете тестовый набор и запускаете оценку агента, Copilot Studio отправляет вопросы из тестовых кейсов, фиксирует ответы агента, сравнивает их с ожидаемыми или стандартом качества и присваивает балл каждому тестовому примеру. Вы также можете увидеть детали, транскрипт и карту активности для каждого тестового случая, а также ресурсы, которые ваш агент использовал для создания ответа.

Создайте комплексную стратегию оценки

Прежде чем проводить оценку, определите, как выглядит успех вашего агента, и определите, какие сценарии наиболее важны для ваших бизнес-результатов. Чёткая стратегия помогает выбрать правильные методы тестирования, расставить приоритеты на высокоэффективные тестовые случаи и интерпретировать результаты в правильном контексте.

Интегрировать оценки в автоматизированные потоки

Оценка агентов поддерживает автоматизацию, чтобы производители могли проводить оценки без ручного вмешательства. Используя REST API или разъёмы Power Platform, вы можете программно запускать оценочные запуски и интегрировать тестирование в автоматизированные рабочие процессы, такие как конвейеры непрерывного развертывания и непрерывного развертывания (CI/CD). Этот подход позволяет запускать тестовые наборы в масштабах и проверять поведение агентов по мере внесения изменений, не требуя ручного выполнения в Copilot Studio.

Тестовый чат против оценки агента

Каждый метод тестирования даёт разные представления о качествах и поведении вашего агента:

Тестовый чат:

  • Принимает и отвечает на один вопрос за раз. Сложно повторять одни и те же тесты несколько раз.

  • Позволяет протестировать полную сессию с несколькими сообщениями.

  • Позволяет взаимодействовать с вашим агентом как с пользователем через чат.

Оценка агента:

  • Можно создавать и запускать несколько тестовых случаев одновременно, используя тестовый набор. Вы можете повторять тесты, тестируя с одним и тем же набором.

  • Можно проверить один вопрос и один ответ на каждый тест-кейс, или по одному разговору на тест-кейс. Однако у вас меньше контроля над разговорами, чем при использовании тестового чата.

  • Выбирайте разные профили пользователей, чтобы имитировать разных пользователей, не завершая взаимодействия самостоятельно.

Когда вы тестируете агента, используйте и тестовый чат, и оценку агента для получения полной картины вашего агента.

Ограничения

В настоящее время оценка агентов не поддерживает Fabric агенты данных.