Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описываются наборы вычислений и способы обеспечения качества приложения.
Что такое набор оценки?
Для измерения качества Databricks рекомендует создать набор оценок с ручной разметкой. Оценочный набор — это проработанный, репрезентативный набор запросов, а также правильные ответы и (при наличии) верные вспомогательные документы, которые необходимо извлечь. Участие человека имеет решающее значение в этом процессе, так как оно гарантирует соответствие ожиданиям и требованиям конечных пользователей.
Процесс создания человеческих меток может занять много времени. Вы можете начать с создания оценочного набора, который включает только вопросы, и добавлять эталонные ответы с течением времени. Оценка агента Mosaic AI может оценить качество вашей цепочки без эталонных данных, хотя, если доступна эталонная информация, она вычисляет дополнительные метрики, такие как правильность ответа.
Элементы хорошего оценочного набора
Хороший набор оценки имеет следующие характеристики:
- Представитель: точно отражает разнообразие запросов, с которыми приложение столкнется в рабочей среде.
- Сложной: Набор должен включать сложные и разнообразные варианты для эффективного тестирования возможностей модели. В идеале он включает в себя состязательные примеры, такие как вопросы, пытающиеся произвести внедрение запроса или вопросы, пытающиеся вызвать недопустимые ответы от LLM.
- Постоянно обновляемый : набор должен периодически обновляться, чтобы отразить, как приложение используется в рабочей среде, изменение характера индексированных данных и любые изменения требований приложения.
Databricks рекомендует как минимум 30 вопросов в наборе оценки, а в идеале 100 – 200. Лучшие наборы оценки будут расти со временем, чтобы содержать 1000 вопросов.
Наборы обучения, тестирования и проверки
Чтобы избежать переобучения, Databricks рекомендует разделить ваш набор данных для оценки на наборы для обучения, тестирования и проверки.
- Обучающий набор: ~70% вопросов. Используется для первой оценки экспериментов, чтобы выявить те, которые обладают наибольшим потенциалом.
- Тестовый набор: ~20% вопросов. Используется для оценки самых высокопроизводительных экспериментов из обучающего набора.
- Валидационный набор: ~10% вопросов. Используется для последней проверки перед развертыванием эксперимента в рабочей среде.
Оценка агента ИИ Мозаики помогает создать набор оценки, предоставив веб-интерфейс чата для заинтересованных лиц, чтобы предоставить отзыв о выходных данных приложения. Выходные данные цепочки и отзывы заинтересованных лиц сохраняются в таблицах Delta, которые затем можно подготовить в качестве оценочного набора. См. подбор набора для оценки в разделе реализации этой кулинарной книги для получения практических инструкций с примером кода.