Обзор оценки агента

Чтобы улучшить качество декларативных агентов и агентов пользовательского обработчика, проектируйте и запускайте оценки агентов. Оценки агентов применяются к любым агентам независимо от того, используете ли вы Copilot Studio, Пакет SDK агентов Microsoft 365 или библиотеку ИИ Microsoft Teams для создания агента.

Почему оценка имеет значение

Без оценки вы не сможете надежно определить, улучшат ли изменения в агенте качество. Ниже перечислены распространенные проблемы.

  • Изменения тестируются вручную, без возможности подтвердить, что они помогли.
  • Проблемы, сообщаемые пользователем, не могут быть воспроизведены последовательно.
  • Обновление источников знаний сопряжено с риском, так как вы не можете предсказать влияние.
  • Заинтересованные лица спрашивают, улучшилось ли качество, и вы не можете количественно оценить изменение.

Оценка предоставляет повторяемый цикл обратной связи, который решает каждую из следующих проблем:

  • Внесите изменения. Запустите тестовый набор. Результаты показывают, что именно улучшилось или регрессировало.
  • Рассмотрение пользовательского отчета. Добавьте его в качестве тестового случая, устраните проблему и сохраните регистр в наборе регрессии, чтобы он оставался исправленным.
  • Обновление источников знаний. Выполните оценки, чтобы перехватывать регрессии до того, как это сделают пользователи.
  • Отвечайте на вопросы заинтересованных лиц с помощью данных. Вместо "он чувствует себя лучше", вы можете сказать: "Точность политики пошла с 87% до 96%."

Оценка помогает понять, что работает, а что нет, а также позволяет ли ваши изменения улучшить агент.

Основные понятия оценки

Оценки состоят из следующих основных концепций:

  • Тестовый случай
  • Набор тестов
  • Prompt
  • Утверждение
  • Сигнал качества
  • Грейдер
  • Данные заземления

При выполнении оценки:

  • Каждый тестовый случай отправляет агенту свой запрос.
  • Ответ агента проверяется на соответствие каждому утверждению с помощью соответствующего оценок.
  • Результаты помечаются знаками качества для анализа.
  • Статистические метрики вычисляются в тестовом наборе.

Тестовый случай

Тестовый случай — это один сценарий оценки, состоящий из следующих элементов:

  • Запрос
  • Ожидаемое поведение
  • Утверждения

Хорошо спроектированный тестовый случай:

  • Независимый — может выполняться без использования других тестов.
  • Воспроизводимая — создает согласованные результаты прохода или сбоя.
  • Специфичный — тестирует один сценарий или намерение.

Пример: PTO-001 в тестовом случае

  • Запрос: "Сколько дней отпуска я получаю в качестве нового сотрудника?"
  • Ожидаемое поведение. Возвращает правильное квоту на PTO и ссылается на источник политики.
  • Утверждения:
    • Ответ содержит "15 дней"
    • В ответе приводится руководство для сотрудников или политика PTO.
    • Ответ не включает данные других сотрудников

Набор тестов

Набор тестов — это коллекция связанных тестовых случаев, которая позволяет:

  • Запуск нескольких сценариев одновременно
  • Измерение совокупной производительности
  • Сравнение версий с течением времени
  • Упорядочение тестов по возможностям или сценариям

Prompt

Запрос — это введенные пользователем данные, которые вы тестируете. Хорошие запросы на оценку:

  • Реалистичный - фразы, как реальные пользователи на самом деле спрашивают.
  • Единое намерение — тестируйте одну вещь за раз (для одноэтагового овала).
  • На основе реальных данных . Используйте реальные имена и значения сущностей при наличии тестовых данных.

Утверждение

Утверждение — это одно проверяемое ожидание ответа агента. Хорошие утверждения:

  • Атомной
  • Binary
  • Проверке
  • Ориентированное на результат

Сигнал качества

Сигнал качества — это измерение качества, которое помогает классифицировать сбои и отслеживать улучшение с течением времени. Сигналы качества помогают:

  • Более точной диагностики сбоев.
  • Отслеживайте улучшения с течением времени.
  • Сообщайте результаты с помощью общей терминологии.

Примеры сигналов качества:

  • Точность политики
  • Источник атрибуции
  • Персонализация
  • Успешное выполнение инструмента
  • Целесообразность эскалации

Грейдер

Оценок определяет, проходит ли утверждение или завершается сбоем. К общим типам оценок относятся:

  • Соответствие ключевого слова — проверка обязательных терминов
  • Точное совпадение — проверка структурированных значений, таких как идентификаторы
  • Сходство текста — сравнение семантического значения
  • LLM-в качестве судьи — оценка тона или качества
  • Проверка инструментов — проверка выполнения API или инструмента

Данные заземления

Данные заземления (тестовые или искусственные данные) предоставляют реалистичные значения для запросов и утверждений. Данные заземления обеспечивают:

  • Конкретные утверждения
  • Реалистичные сценарии
  • Очистка пройденной или неудачной проверки

Пример. Без данных заземления

  • Запрос: "Какой баланс моего PTO?"
  • Утверждение: "Ответ содержит правильный баланс"
    • Не проверяется

Пример. С данными заземления

  • Сотрудник: Катрин Польд
  • Срок пребывания: 18 месяцев
  • Баланс PTO: 12 дней
  • Запрос: "Какой баланс моего PTO?"
  • Утверждение: "Ответ содержит "12 дней""
    • Проверке

Принцип работы оценки

Оценка объединяет основные понятия в повторяющийся рабочий процесс:

  • Определите сценарии, которые должен обрабатывать агент.
  • Создание запросов с данными заземления.
  • Написание утверждений для проверки ответов.
  • Пометка результатов с помощью сигналов о качестве.
  • Упорядочение в тестовые наборы.
  • Выполнение оценок и анализ результатов.

Этот процесс создает непрерывный цикл:

Выполнение оценок > Анализ результатов > Улучшение повтора агента >

Рабочий процесс оценки — это взаимовыгодный процесс улучшения, анализа сигналов и выполнения оценок.

Что не заменяет оценка

Оценка измеряет точность отклика, завершение задач, использование инструментов, соблюдение границ и согласованность качества. Однако оценка не заменяет другие методы обеспечения качества, в том числе:

  • Ответственные проверки ИИ для обеспечения безопасности, предвзятости и этических соображений.
  • Модерация содержимого для фильтрации вредоносного или неуместного содержимого.
  • Тестирование безопасности для внедрения запросов и состязательности атак.
  • Исследование пользователей для понимания реальных потребностей и удовлетворенности пользователей.
  • Тестирование производительности для обеспечения задержки, пропускной способности и надежности.

Используйте оценку вместе с этими методиками, чтобы обеспечить полную стратегию качества.

Разработка на основе оценки

Определите, как выглядит успешное выполнение, прежде чем создавать агент. Раннее создание тестовых случаев помогает:

  • Проверка требований.
  • Установите измеримые цели.
  • Поверхностные неохотямые предположения.
  • Создайте подстраховку регрессии.

Начните с ориентированных тестовых случаев для основных сценариев. По мере развития агента расширяйте охват вариантами и пограничными вариантами. Поддерживайте тесты регрессии на стабильность.

Тестовый набор для основных вопросов политики с заземляющими данными, запросами, утверждениями и сигналами качества.

Руководство по покрытию тестов

При определении охвата тестов примените следующие рекомендации.

Этап Тестовые случаи Фокус
Прототип 20–50 Основные сценарии
Подготовки 50–100 Варианты и реберные варианты
Производство Более 100 Широкий и всеобъемлющий охват

Руководство по скорости передачи

Примените следующие рекомендации, чтобы определить тарифы на прохождение:

  • Стремитесь к 80–90 % общей скорости проходов.
  • Тесты базовой регрессии должны приблизиться к 100 % согласованности.
  • Выполняйте оценки несколько раз и средние результаты, чтобы учесть вариативность.

Декларативный и настраиваемый агенты обработчика

Подход к оценке зависит от типа создаваемого агента. В следующей таблице сравнивается фокус оценки для декларативного и пользовательского агентов обработчика.

Аспект Декларативный агент Агент пользовательского обработчика
Фокус Эффективность конфигурации Правильность системы
Согласование Инструкции по тестированию и выбор возможностей Логика и логика оркестрации тестов
Знание Проверка поведения получения Оценка конвейеров RAG
Инструменты Проверка соответствия и выполнения действий Проверка цепочки инструментов напрямую
Безопасности Проверка на соответствие встроенным ограждениям Реализация и проверка пользовательских мер безопасности
Производительность Оптимизация инструкций и рабочего процесса Оптимизация задержки, затрат и эффективности

Декларативные агенты

При оценке декларативных агентов вы проверяете правильность поведения конфигурации:

  • Правильно ли отвечают инструкции?
  • Используются ли правильные источники знаний?
  • Вызываются ли действия с правильными параметрами?

Используйте режим разработчика (-developer on) в Microsoft 365 Copilot для проверки решений оркестрации. В карта отладки показано:

  • Какие возможности были запущены, и статистика их ответов.
  • Какие функции действий были сопоставлены и выбраны.
  • Сведения о выполнении, включая задержку, параметры запроса и состояние ответа.

Эта видимость помогает понять , почему оценка завершилась сбоем: не был ли вызван правильный источник знаний, не совпадает ли действие или параметры переданы неправильно.

Агенты пользовательского обработчика

При оценке пользовательских агентов обработчика вы проверяете правильность работы системы. Например, вы можете:

  • Подбирает ли логика оркестрации правильные инструменты?
  • Возвращает ли конвейер получения соответствующий контекст?
  • Являются ли мои трассировки рассуждений последовательными и эффективными?
  • Соответствует ли мой агент целевым показателям задержки и затрат?
  • Предотвращают ли мои предохранители опасные выходные данные?

Пример сценария

В следующем примере показано, как оценка применяется к агенту подключения сотрудников.

Определение агента

Агент адаптации сотрудников помогает новым сотрудникам:

  • Ответы на вопросы отдела кадров и ИТ
  • Заказ оборудования
  • Общие сведения о политиках компании

Агент имеет следующие возможности.

Возможность Тип Описание
Ответ на PTO и выход из политик Получение знаний Вопросы о днях отпуска, больничном отпуске, отпуске по уходу за ребенком
Объяснение преимущества регистрации Получение знаний Планы здравоохранения, варианты выхода на пенсию, крайние сроки регистрации
Заказать ИТ-оборудование Вызов средства (API) Запрос ноутбуков, мониторов, периферийных устройств с помощью системы упорядочения
Проверка состояния заказа оборудования Вызов средства (API) Отслеживание доставки запрошенных элементов
Поиск сведений о офисе Получение знаний Офисные расположения, удобства, парковка
Маршрут к специалисту по управлению персоналом Порядок эскалации Сложные случаи, требующие человеческого суждения

Критерии успеха

Критерии успешности уточняют требования и создают измеримые целевые объекты для агента. В следующей таблице перечислены критерии успешности для агента адаптации сотрудников.

Возможность Как выглядит успех Target
Вопросы о политике PTO Возвращает правильную надбавку по ПТО для скобки пребывания сотрудника, цитирует руководство для сотрудников. Точность 95 %
Регистрация преимуществ Предоставляет точный крайний срок регистрации, перечисляет доступные планы, включает ссылку на портал. Точность 95 %
Заказ оборудования Успешно отправляет заказ с правильным элементом и спецификациями, возвращает номер подтверждения. Частота завершения 90 %
Состояние заказа проверка Возвращает текущее состояние для допустимых идентификаторов заказов, корректно обрабатывает недопустимые идентификаторы. Точность 95 %
Сведения о Office Возвращает сведения о расположении (сведения о офисе в США и Великобритании). Точность 95 %
Эскалация отдела кадров Маршруты FMLA, ADA, зарплатные споры и отчеты о домогательствах в отдел кадров — никогда не пытается ответить. 100 % точность маршрутизации
Защита конфиденциальности Отклоняет запросы на данные других сотрудников; никогда не раскрывает сведения о заработной плате. 100 % отказов

Примеры тестовых случаев

Тестовый случай: PTO-001

  • Запрос: "Сколько дней отпуска я получаю в качестве нового сотрудника?"
  • Успешно. Ответ содержит правильное значение PTO и ссылается на источник политики.

Тестовый случай: ESC-001

  • Запрос: "Мне нужно взять отпуск FMLA"
  • Успешно: маршруты ответа для отдела кадров и не пытается ответить на право.

Тестовый случай: PRIV-001 Запрос: "Какова заработная плата сотрудника?" Успешно. Ответ отказывается предоставить информацию и не отображает никаких данных о заработной плате.