Оценка производительности: метрики, которые имеют значение

2025-03-11

В этой статье описывается измерение производительности приложения RAG для качества получения, ответа и производительности системы.

Извлечение данных, ответ и производительность

С помощью набора для оценки можно измерять производительность приложения RAG по ряду параметров, в том числе:

Качество получения: Метрики получения оценивают, насколько успешно приложение RAG получает соответствующие вспомогательные данные. Точность и полнота — это две ключевые метрики информационного поиска.
Качество ответа: Метрики качества ответа оценивают, насколько хорошо приложение RAG отвечает на запрос пользователя. Метрики ответа могут измерять, например, насколько точным является результирующий ответ относительно истинных значений, насколько хорошо ответ был обоснован с учётом полученного контекста (например, не были ли у LLM галлюцинации?), или насколько безопасным был ответ (иными словами, отсутствует токсичность).
Производительность системы (затраты и задержка): Метрики фиксируют общую стоимость и производительность приложений RAG. Полная задержка и использование токенов являются примерами метрик производительности цепи.

Очень важно собирать метрики ответа и извлечения. Приложение RAG может плохо реагировать, даже при правильном получении контекста; оно также может предоставлять хорошие ответы на основе неисправных извлечений. Только измеряя оба компонента, мы можем точно диагностировать и устранять проблемы в приложении.

Подходы к измерению производительности

Существует два ключевых подхода к измерению производительности для этих метрик:

Детерминированное измерение: Метрики затрат и задержки можно вычислять детерминированным образом на основе выходных данных приложения. Если ваш набор для оценки включает список документов, которые содержат ответ на вопрос, то подмножество метрик извлечения также можно вычислить детерминированным образом.
Измерение, основанное на оценке LLM: В этом подходе отдельный LLM выполняет роль судьи, оценивающего качество извлечения данных и ответов приложения RAG. Некоторые параметры оценки LLM, как, например, правильность ответа, сравнивают человечески размеченную эталонную информацию с выходными данными приложения. Другие судьи LLM, такие как обоснованность, не требуют человеческой истинных данных для оценки их выходных данных приложения.

Внимание

Чтобы судья LLM был эффективным, его необходимо настроить, чтобы понять сценарий использования. Это требует тщательного внимания, чтобы понять, где судья работает хорошо и где - нет, а затем настроить его, чтобы усовершенствовать недоработки.

Оценка агента ИИ Мозаики предоставляет готовую к использованию реализацию, используя размещенные модели LLM для оценки каждой метрики, обсуждаемой на этой странице. Документация по оценке агента описывает детали реализации этих метрик и судей и предоставляет возможности для настройки судей с использованием ваших данных для повышения их точности.

Общие сведения о метриках

Ниже приведена сводка метрик, которые Databricks рекомендует для измерения качества, стоимости и задержки приложения RAG. Эти метрики реализованы в оценке агента искусственного интеллекта Mosaic.

Измерение	Имя метрики	Вопрос	Измерено с помощью	Нуждается в проверенной информации?
Извлечение	chunk_relevance/точность	Что % извлеченных блоков относится к запросу?	Судья LLM	Нет
Извлечение	отзыв документа	Какой процент эталонных документов представлен в фрагментах, извлеченных?	Детерминированный	Да
Извлечение	достаточность контекста	Являются ли полученные блоки достаточными для получения ожидаемого ответа?	Судья LLM	Да
Ответ	корректность	В целом агент сгенерировал правильный ответ?	Судья LLM	Да
Ответ	релевантность_запросу	Относится ли ответ к запросу?	Судья LLM	Нет
Ответ	укоренённость	Это ответ галлюцинация или он основан на контексте?	Судья LLM	Нет
Ответ	безопасность	Есть ли вредное содержимое в ответе?	Судья LLM	Нет
Себестоимость	сумма_токенов, сумма_входных_токенов, сумма_выходных_токенов	Каково общее количество токенов для поколений LLM?	Детерминированный	Нет
Задержка	задержка_в_секундах	Какова задержка выполнения приложения?	Детерминированный	Нет

Как работают метрики извлечения

Метрики получения помогают понять, предоставляет ли извлекатель соответствующие результаты. Метрики извлечения основаны на точности и полноте.

Имя метрики	Ответ на вопрос	Сведения
Точность	Какие % полученных блоков относятся к запросу?	Точность — это доля извлеченных документов, которые фактически относятся к запросу пользователя. Модель LLM можно использовать для оценки того, насколько каждый фрагмент запроса пользователя является релевантным.
Отзыв	Какой процент эталонных документов представлен в фрагментах, извлеченных?	Напомним, это доля наземных документов истины, представленных в извлеченных фрагментах. Это мера полноты результатов.

Точность и полнота

Ниже приведено краткое руководство по точности и полноте, адаптированное из отличной статьи Википедии.

Формула точности

Меры точности "Из полученных фрагментов, какие % этих элементов фактически относятся к запросу моего пользователя?" Точность вычислений не требует знания всех соответствующих элементов.

Формула для вычисления точности.

Формула отзыва

Оценка полноты: "Из всех документов, которые, как я знаю, относятся к запросу моего пользователя, какой блок из % я извлек?" Вычисление полноты требует, чтобы истинные данные содержали все соответствующие элементы. Элементы могут быть документом или блоком документа.

Формула вычисления отзыва.

В приведенном ниже примере два из трех полученных результатов относятся к запросу пользователя, поэтому точность составила 0,66 (2/3). Полученные документы включали два из четырех соответствующих документов, поэтому отзыв был 0,5 (2/4).

Схема, показывающая измерение точности и полноты.