Проектирование для мониторинга

Завершено

В рамках архитектуры операций машинного обучения (MLOps) следует подумать о том, как отслеживать решение машинного обучения.

Мониторинг является полезным в любой среде MLOps. Вы хотите отслеживать модель, данные и инфраструктуру для сбора метрик, которые помогут вам решить все необходимые действия.

Мониторинг модели

Чаще всего требуется отслеживать производительность модели. Во время разработки вы используете MLflow для обучения и отслеживания моделей машинного обучения. В зависимости от обучаемой модели существуют различные метрики, которые можно использовать для оценки того, выполняется ли модель должным образом.

Для мониторинга модели в рабочей среде можно использовать обученную модель для создания прогнозов на небольшом подмножестве новых входящих данных. Создав метрики производительности для тестовых данных, вы можете проверить, достигается ли модель по-прежнему.

Кроме того, вы также можете отслеживать любые ответственные проблемы искусственного интеллекта (ИИ). Например, делает ли модель справедливые прогнозы.

Прежде чем отслеживать модель, важно решить, какие метрики производительности необходимо отслеживать и какой эталон для каждой метрики следует учитывать. Когда вы должны быть оповещены о том, что модель больше не является точной?

Мониторинг данных

Обычно вы обучаете модель машинного обучения с помощью исторического набора данных, который является представителем новых данных, получаемых моделью при развертывании. Однако со временем могут возникать тренды, изменяющие профиль данных, что снижает точность модели.

Например, предположим, что модель обучена прогнозировать расход бензина в автомобиле на основе числа цилиндров, объема двигателя, веса и других признаков. С течением времени, поскольку производство автомобилей и технологии двигателя продвинулись, типичные эффективность топлива транспортных средств может значительно повыситься; делает прогнозы модели обученными на более старых данных менее точными.

Diagram of different hyperparameter values resulting in different models by performing hyperparameter tuning.

Это изменение профилей данных между текущими и учебными данными называется смещением данных, и это может быть значительной проблемой для прогнозных моделей, используемых в рабочей среде. Поэтому важно иметь возможность отслеживать смещение данных с течением времени, а также переобучение моделей, необходимых для поддержания прогнозной точности.

Мониторинг инфраструктуры

Рядом с мониторингом модели и данных необходимо также отслеживать инфраструктуру, чтобы свести к минимуму затраты и оптимизировать производительность.

На протяжении всего жизненного цикла машинного обучения вы используете вычислительные ресурсы для обучения и развертывания моделей. При использовании проектов машинного обучения в облаке вычислительные ресурсы могут быть одним из самых больших расходов. Поэтому необходимо отслеживать, эффективно ли вы используете вычислительные ресурсы.

Например, можно отслеживать использование вычислительных ресурсов во время обучения и во время развертывания. Просматривая использование вычислительных ресурсов, вы знаете, можно ли масштабировать подготовленные вычислительные ресурсы или масштабировать, чтобы избежать ограничений емкости.