Включение измерения: поддержка инфраструктуры

2025-03-11

В этой статье подробно описана инфраструктура, необходимая для измерения качества и способа его обеспечения Databricks. Измерение качества не легко и требует значительных инвестиций в инфраструктуру.

Подробное ведение журнала трассировки

Основная часть логики приложения RAG — это ряд шагов в цепочке. Для оценки и отладки качества необходимо реализовать инструментирование, которое отслеживает входные и выходные данные цепочки, а также каждый шаг цепочки, а также связанные с ним входные и выходные данные. Инструментирование, установленное вами, должно работать одинаково и в стадии разработки, и в производстве.

В Databricks трассировка MLflow предоставляет эту возможность. С помощью ведения журнала трассировки MLflow вы инструментируете свой код, получая одинаковые трассировки как в процессе разработки, так и в производственной среде. Производственные трассировки регистрируются как часть таблицы выводов.

Пользовательский интерфейс обзора заинтересованных сторон

Чаще всего в качестве разработчика вы не являетесь экспертом по домену в содержимом разрабатываемого приложения. Чтобы получить отзывы от специалистов по работе с людьми, которые могут оценить качество выходных данных приложения, вам нужен интерфейс, позволяющий им взаимодействовать с ранними версиями приложения и предоставлять подробные отзывы. Кроме того, необходимо загрузить конкретные выходные данные приложений для заинтересованных лиц, чтобы оценить их качество.

Этот интерфейс должен отслеживать выходные данные приложения и связанные отзывы структурированным образом, сохраняя полную трассировку приложения и подробные отзывы в таблице данных.

В Databricks приложение Agent Evaluation Review предоставляет эту возможность.

Платформа метрик качества, стоимости и задержки

Вам нужен способ определить метрики, которые комплексно измеряют качество каждого компонента вашей цепочки и комплексного приложения. В идеале платформа предоставит набор стандартных метрик из коробки, помимо поддержки настройки, чтобы можно было добавить метрики, которые проверяют конкретные аспекты качества, уникальные для вашего бизнеса.

В Databricks Оценка Агентов предоставляет готовую реализацию, используя размещенные модели LLM-судьи для получения необходимых метрик качества, затрат и задержки.

Ремень оценки

Вам нужен способ быстро и эффективно получить выходные данные из цепочки для каждого вопроса в наборе оценки, а затем оценить каждый результат на соответствующих метриках. Этот механизм должен быть максимально эффективным, поскольку вы будете проводить оценку после каждого эксперимента, целью которого является улучшение качества.

В Databricks оценка агента предоставляет систему оценки, интегрированную с MLflow.

Управление оценочными наборами

Ваш набор оценки — это живой набор вопросов, которые будут обновляться в течение жизненного цикла разработки и рабочей среды приложения.

В Databricks можно управлять оценочным набором в виде Delta Table. При оценке с помощью MLflow MLflow автоматически регистрирует моментальный снимок используемой версии набора вычислений.

Платформа отслеживания экспериментов

Во время разработки приложений вы попытаетесь выполнить множество различных экспериментов. Платформа отслеживания экспериментов позволяет регистрировать каждый эксперимент и отслеживать метрики и другие эксперименты.

В Databricks MLflow предоставляет возможности отслеживания экспериментов.

Платформа параметризации цепочки

Во многих экспериментах требуется хранить константу кода цепочки при итерации различных параметров, используемых кодом. Вам нужна платформа, которая позволяет сделать это.

В Databricks конфигурация модели MLflow предоставляет эти возможности.

Мониторинг через Интернет

После развертывания вам потребуется способ отслеживания работоспособности приложения и постоянного качества, затрат и задержки.

В Databricks служба моделей предоставляет мониторинг состояния работоспособности приложений, а мониторинг Lakehouse обеспечивает постоянный вывод данных на панель мониторинга и отслеживает качество, затраты и задержку.