Об оценке агента

По мере того как агенты ИИ берут на себя ключевые роли в бизнес-процессах, необходимость в надёжном и повторяемом тестировании становится крайне важной. Оценка агента позволяет создавать тесты , которые имитируют реальные сценарии для вашего агента. Эти тесты охватывают больше вопросов и разговоров быстрее, чем ручное индивидуальное тестирование. Затем вы можете измерить точность, релевантность и качество ответов взаимодействия вашего агента, исходя из информации, к которой агент имеет доступ. Используя результаты тестового набора, вы можете оптимизировать поведение вашего агента и подтвердить, что он соответствует требованиям вашего бизнеса и качества.

Зачем использовать автоматизированное тестирование?

Оценка агентов обеспечивает автоматизированное структурированное тестирование. Это помогает выявлять проблемы на ранних этапах, снижает риск ошибочных ответов и поддерживает качество по мере развития агента. Этот процесс обеспечивает автоматизированный, повторяемый вид контроля качества в тестировании агентов. Это гарантирует, что агент соответствует стандартам точности и надёжности вашего бизнеса, а также обеспечивает прозрачность в его работе. У него другие сильные стороны, чем тестирование через тестовый чат.

Вы запускаете оценки и видите результаты с помощью интерфейса Copilot Studio через Power Platform REST API или через добавление действий в инструментах, потоках или Power Automate.

Оценка агента измеряет корректность и эффективность, а не этику ИИ или проблемы с безопасностью. Агент может пройти все оценочные тесты, но всё равно, например, дать неподходящий ответ на вопрос. Клиентам всё равно следует использовать ответственные обзоры ИИ и фильтры безопасности контента; Оценки не заменяют эти отзывы и фильтры.

Ограничения для облачного сообщества в правительстве

Оценка агентов в условиях Government Community Cloud (GCC) имеет следующие ограничения:

Создатели не могут добавить пользовательский профиль в свои тестовые наборы. Однако создатели всё ещё могут проводить оценки без профиля пользователя.
Создатели не могут использовать метод теста сходства для оценок. Все остальные методы тестирования доступны.

Как работает оценка агентов

Copilot Studio использует тестовый случай для каждой оценки агента. Тестовый случай — это единое взаимодействие, которое моделирует, как пользователь будет взаимодействовать с вашим агентом. Взаимодействие может состоять из одного вопроса или целого разговора.

Тестовый случай также может включать ответ, который вы ожидаете от агента. Рассмотрим пример.

Вопрос: Какие у вас рабочие часы?
Ожидаемый ответ: Мы работаем с 9:00 до 17:00 с понедельника по пятницу.

Используя оценку агентов, вы можете генерировать, импортировать или вручную писать группу тестовых случаев. Эта группа тестовых случаев называется тестовым набором. Тестовый набор позволяет вам:

Запускайте несколько тестовых кейсов, охватывающих широкий спектр возможностей одновременно, вместо того чтобы задавать агенту по одному вопросу за раз.
Анализируйте работу вашего агента с легко воспринимаемым агрегированным результатом и также увеличивайте внимание на отдельных тестовых случаях.
Тестируйте изменения в своих агентах, используя тот же набор тестов, чтобы иметь объективный стандарт для измерения и сравнения изменений в производительности.
Быстро создавайте новые тестовые наборы или модифицируйте существующие, чтобы покрыть меняющиеся возможности или требования агентов.

Каждый набор тестов может оценивать ваш агент с помощью нескольких методов одновременно.

Вы также можете выбрать профиль пользователя, который будет играть роль стимулируемого пользователя. Агент может быть настроен так, чтобы реагировать на разных пользователей по-разному или предоставлять доступ к ресурсам по-разному.

Когда вы выбираете тестовый набор и запускаете оценку агента, Copilot Studio отправляет вопросы из тестовых кейсов, фиксирует ответы агента, сравнивает их с ожидаемыми или стандартом качества и присваивает балл каждому тестовому примеру. Вы также можете увидеть детали, транскрипт и карту активности для каждого тестового случая, а также ресурсы, которые ваш агент использовал для создания ответа.

Создайте комплексную стратегию оценки

Прежде чем проводить оценку, определите, как выглядит успех вашего агента, и определите, какие сценарии наиболее важны для ваших бизнес-результатов. Чёткая стратегия помогает выбрать правильные методы тестирования, расставить приоритеты на высокоэффективные тестовые случаи и интерпретировать результаты в правильном контексте.

Используйте решения архитекторов: фреймворки оценки для сопоставления бизнес-целей с измеряемыми измерениями оценки и методами оценки.
Используйте проектирование и операционную оценку агентов для создания повторяемого процесса оценки, поддерживающего постоянное улучшение качества.

Интегрировать оценки в автоматизированные потоки

Оценка агентов поддерживает автоматизацию, чтобы производители могли проводить оценки без ручного вмешательства. Используя REST API или разъёмы Power Platform, вы можете программно запускать оценочные запуски и интегрировать тестирование в автоматизированные рабочие процессы, такие как конвейеры непрерывного развертывания и непрерывного развертывания (CI/CD). Этот подход позволяет запускать тестовые наборы в масштабах и проверять поведение агентов по мере внесения изменений, не требуя ручного выполнения в Copilot Studio.

Тестовый чат против оценки агента

Каждый метод тестирования даёт разные представления о качествах и поведении вашего агента:

Тестовый чат:

Принимает и отвечает на один вопрос за раз. Сложно повторять одни и те же тесты несколько раз.
Позволяет протестировать полную сессию с несколькими сообщениями.
Позволяет взаимодействовать с вашим агентом как с пользователем через чат.

Оценка агента:

Можно создавать и запускать несколько тестовых случаев одновременно, используя тестовый набор. Вы можете повторять тесты, тестируя с одним и тем же набором.
Можно проверить один вопрос и один ответ на каждый тест-кейс, или по одному разговору на тест-кейс. Однако у вас меньше контроля над разговорами, чем при использовании тестового чата.
Выбирайте разные профили пользователей, чтобы имитировать разных пользователей, не завершая взаимодействия самостоятельно.

Когда вы тестируете агента, используйте и тестовый чат, и оценку агента для получения полной картины вашего агента.

Ограничения

В настоящее время оценка агентов не поддерживает Fabric агенты данных.

Кері байланыс

Бет пайдалы болды ма?

Last updated on 2026-05-27