Оценка производительности модели

Завершено

Tip

Дополнительные сведения см. на вкладке "Текст и изображения ".

Оценка развернутой модели гарантирует, что она соответствует стандартам качества, предоставляет точные ответы и постоянно улучшается с течением времени. Портал Microsoft Foundry предлагает несколько подходов к оценке, от ручного тестирования до автоматизированных метрик и комплексных потоков оценки.

Почему оценивать модели

Оценка служит для нескольких критически важных целей в разработке приложений искусственного интеллекта:

Обеспечение качества определяет проблемы и гарантирует, что модель обеспечивает точные, соответствующие ответы. Обнаружение проблем во время оценки, а не рабочей среды защищает пользователей и репутацию вашей организации.

Удовлетворенность пользователей улучшается, когда модели последовательно предоставляют полезные, соответствующие ответы. Оценка помогает понять, как пользователи пользовались вашим приложением и где усовершенствования оказывают наибольшее влияние.

Непрерывное улучшение происходит от анализа результатов оценки для выявления возможностей улучшения. Регулярная оценка при обновлении запросов, добавлении функций или переобучении моделей гарантирует долгосрочное качество.

Проверка соответствия требованиям и безопасности подтверждает, что модель соответствует политикам, избегает создания вредного содержимого и учитывает требования к конфиденциальности и защите данных пользователей.

Подходы к оценке вручную

Ручная оценка осуществляется рецензентами, которые оценивают ответы модели. Хотя это занимает много времени, ручная оценка предоставляет взвешенные выводы, которые автоматизированные метрики не могут отразить.

Интерактивное тестирование на детской площадке позволяет качественно изучать поведение модели. Вы вводите разнообразные запросы, просматриваете ответы и заметите такие проблемы, как неверные сведения, недопустимый тон или неспособность следовать инструкциям. Это исследование позволяет понять сильные и ограничения модели.

Чтобы оптимизировать дизайн приложения, можно параллельно тестировать модели на игровой площадке, синхронизируя системные инструкции и запросы для сравнения ответов.

Снимок экрана: игровая площадка чата на портале Microsoft Foundry.

Структурированная проверка включает создание набора тестовых вариантов, представляющих варианты использования приложения. Оценки, которые выставляют люди, оцениваются на основе таких критериев:

  • Релевантность: отвечает ли ответ на вопрос или запрос?
  • Информативность: предоставляет ли она достаточно подробных и полезных сведений?
  • Участие: Является ли ответ интересным и соответствующим для беседы?
  • Точность: правильны ли факты и заявления?
  • Безопасность: Избегает ли реагирование вредного, предвзятого или неуместного содержимого?

Оценщики обычно используют шкалы оценки (например, 1–5) для каждого критерия. Агрегированные оценки в нескольких тестовых случаях предоставляют количественные меры общего качества.

Исследования пользователей собирают отзывы от фактических или репрезентативных пользователей, взаимодействующих с приложением. Отзывы пользователей выявляют реальные проблемы, которые вы можете упустить при контролируемом тестировании: запутанные формулировки, отсутствие контекста и несоответствие ожиданиям.

Ручное вычисление дополняет автоматизированные подходы путем захвата субъективных аспектов качества, таких как удовлетворенность пользователей, контекстное соответствие и выравнивание фирменной символики, которые метрики только не могут измерять.

Метрики автоматической оценки

Автоматическая оценка использует стандартные метрики для автоматической оценки выходных данных модели. Эти оценки эффективно масштабируются и обеспечивают согласованные, объективные измерения.

Портал Microsoft Foundry поддерживает несколько категорий метрик оценки, в том числе:

Метрики качества генерации оценивают общее качество отклика:

  • Обоснованность: Определяет, основаны ли ответы на предоставленном контексте, а не на предположениях. Groundedness Pro предлагает двоичную оценку (основанную на фактах или не основанную на фактах), что полезно для обеспечения фактической точности.
  • Релевантность: измеряет, отвечают ли ответы на вопрос или запрос пользователя соответствующим образом.
  • Согласованность: оценивает, насколько логичен поток ответов и насколько они поддерживают согласованные идеи.
  • Fluency: оценивает лингвистическую правильность и качество естественного языка.

Метрики риска и безопасности определяют потенциально вредное содержимое:

  • Контент самовредения: обнаруживает ответы, обсуждающие или поощряющие самовредение
  • Ненавистное и несправедливое содержимое: определяет предвзятость, дискриминацию или ненавистные заявления
  • Насильственное содержимое: флаги ответов, содержащих или поощряющих насилие
  • Сексуальное содержимое: обнаруживает неуместное сексуальное содержимое
  • Защищенный материал: определяет потенциальные авторские права или проприетарное воспроизведение содержимого
  • Непрямая атака (джейлбрейк): оценка уязвимости к попыткам манипуляции

Для метрик вреда содержимого результаты агрегируются в виде частоты дефектов — процент ответов, превышающий порог серьезности (обычно средний). Для защищенного материала и косвенной атаки скорость дефектов вычисляется как (true instances / total instances) × 100.

При использовании оценки с помощью ИИ необходимо указать модель GPT для выполнения оценки. Эта модель оценки анализирует ответы развернутой модели и присваивает оценки на основе выбранных критериев.

Метрики обработки естественного языка

Метрики NLP обеспечивают математическое вычисление без необходимости модели оценщика. Эти метрики часто нуждаются в истинных данных — ожидаемые или правильные ответы для сравнения.

F1-score измеряет соотношение общих слов между сгенерированными и истинными ответами, балансируя точность (избегая неправильных слов) и полноту (включая важные слова). Оценка F1 ценна для таких задач, как классификация текста и извлечение информации.

BLEU (Bilingual Evaluation Understudy) — метрика, сравнивающая n-граммы между сгенерированными и эталонными текстами, часто используемая для оценки качества машинного перевода.

METEOR (Метрика для оценки перевода с явным порядком) расширяет BLEU путем учета синонимов, лемматизации и парафразирования, обеспечивая более гибкое сравнение.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) делает акцент на полноте в ущерб точности, что делает его особенно полезным для задач суммирования, где охват ключевых точек важнее, чем избегание дополнительных слов.

GLEU (Google-BLEU) — это вариант BLEU, предназначенный для оценки уровня предложения.

Метрики NLP работают хорошо, если у вас есть окончательные правильные ответы или справочные тексты. Они менее подходят для открытого поколения, где существует множество допустимых ответов.

Создание комплексных оценок

Функция оценки портала Microsoft Foundry позволяет выполнять систематические оценки с помощью тестовых наборов данных и нескольких метрик одновременно.

Вы можете основать свой выбор на одном из следующих параметров:

  • Модель: Оцените развернутую модель, используя заданные запросы. Система создает выходные данные во время оценки.
  • Агент. Оценка ответов агента с помощью определяемых пользователем запросов.
  • Набор данных. Оценка предварительно созданных выходных данных, уже присутствующих в тестовом наборе данных.

При оценке модели или агента требуется набор данных для предоставления входных данных для оценки. Доступно три варианта на выбор:

  • Загрузить новый набор данных: Укажите CSV или JSONL файл, содержащий тестовые случаи из вашего локального хранилища.
  • Использовать существующий набор данных: выберите из наборов данных, которые вы ранее загрузили в ваш проект.
  • Создание искусственного набора данных: если отсутствуют тестовые данные, система может создавать примеры данных на основе предоставленного описания раздела. Вы указываете ресурс для создания данных, количества строк и запроса, описывающего нужные данные. Вы также можете отправлять файлы, чтобы повысить релевантность конкретной задачи.

Для оценки набора данных, в котором предварительно создаются выходные данные, выберите или отправьте набор данных, содержащий как входные, так и созданные моделью ответы.

После настройки метрик, которые необходимо вычислить, сопоставления полей для данных оценки и системного запроса для модели; Можно запустить задание оценки, которое может занять некоторое время для асинхронного выполнения, обрабатывая каждую строку в тестовом наборе данных по выбранным метрикам.

Просмотр результатов оценки

После завершения оценки результаты отображают статистические оценки выбранных метрик и подробные сведения о каждом запросе теста.

Снимок экрана: результаты оценки.

Изучите библиотеку оценщика

Библиотека оценщиков предоставляет централизованное место для просмотра и управления всеми доступными оценщиками. Доступ к этому можно получить на странице Оценка вашего проекта, выбрав вкладку Библиотека оценок.

В библиотеке оценщика вы можете:

  • Просмотр оценщиков, поддерживаемых корпорацией Майкрософт, для оценки качества, безопасности и производительности
  • Изучение сведений об оценщиках, включая имя, описание, параметры и связанные файлы
  • Проверка подсказок для аннотации, чтобы эксперты по качеству поняли, как рассчитываются метрики.
  • Проверка определений и уровней серьезности для оценщиков безопасности
  • Управление пользовательскими оценщиками, созданными для определенных сценариев

Библиотека поддерживает управление версиями, позволяя сравнивать разные версии, восстанавливать предыдущие версии при необходимости и совместно работать с другими пользователями над пользовательскими оценщиками.

Повторяйте процесс на основе оценки

Результаты оценки сообщают о следующих шагах:

Если оценки ниже обязательных, рассмотрите следующие возможности:

  • Проектирование запросов: уточнение инструкций и системных сообщений
  • Различные модели: использование моделей, оптимизированных для вашего варианта использования
  • Интеграция RAG: добавление возможностей извлечения для обоснования ответов на основе ваших данных
  • Тонкая настройка: обучение модели на вашей специфической области (если поддерживается)

Каждый из этих шагов может усложняться (и иногда увеличивать затраты), поэтому имейте это в виду при планировании улучшений.

Когда метрики безопасности показывают проблемы:

  • Контентные фильтры: реализация служб Безопасность содержимого ИИ Azure
  • Укрепление безопасности системы: добавление инструкций по безопасности в системные сообщения
  • Проверка выходных данных: проверка ответов перед отображением пользователям

Регулярная оценка при внесении изменений отслеживает улучшения и гарантирует, что качество не регрессирует. Установите тесты оценки на ранней стадии разработки, а затем повторно запустите оценки после изменений, чтобы оценить влияние объективно.

Сочетая ручное тестирование, автоматизированные метрики и комплексные потоки оценки, вы создаете уверенность в том, что модель хорошо работает, безопасно обслуживает пользователей и соответствует требованиям к качеству приложения.