Операции машинного обучения

Статья
07/16/2024

В этой статье описывается три архитектуры Azure для операций машинного обучения с сквозной интеграцией и конвейерами непрерывной доставки (CI/CD) и переобучение конвейеров. Архитектуры предназначены для этих приложений ИИ:

Классическое машинное обучение
Компьютерное зрение (CV)
Обработка естественного языка

Эти архитектуры являются продуктом проекта MLOps версии 2. Они включают рекомендации, которые архитекторы решений, определенные в процессе разработки различных решений машинного обучения. Результат — это развертываемые, повторяемые и обслуживаемые шаблоны. Все три архитектуры используют службу Машинное обучение Azure.

Сведения о реализации с примерами шаблонов развертывания для MLOps версии 2 см . в акселераторе решения Azure MLOps версии 2.

Потенциальные варианты использования

Классическое машинное обучение: прогнозирование временных рядов, регрессия и классификация табличных структурированных данных являются наиболее распространенными вариантами использования в этой категории. Вот некоторые примеры.
- Классификация двоичных и многометок.
- Линейная, полиномиальная, гребня, лассо, квантильная и байесская регрессия.
- ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.
CV: Платформа MLOps в этой статье посвящена главным образом вариантам использования CV сегментации и классификации изображений.
Обработка естественного языка: эту платформу MLOps можно использовать для реализации:
- Распознавание именованных сущностей:
- Классификация текстов
- Создание текста
- Анализ тональности
- Перевод текста
- Ответы на вопросы
- Сводка
- Обнаружение предложений
- Распознавание языка
- Лексико-грамматический анализ

Имитации ИИ, глубокое обучение с подкреплением и другие формы ИИ не описаны в этой статье.

Архитектура

Шаблон архитектуры MLOps версии 2 состоит из четырех основных модульных компонентов или этапов жизненного цикла MLOps:

Пространство данных
Администрирование и настройка
Разработка моделей или внутренний этап цикла
Развертывание модели или этап внешнего цикла

Предыдущие компоненты, соединения между ними и типичные лица являются стандартными для всех архитектур сценариев MLOps версии 2. Варианты детализации каждого компонента зависят от сценария.

Базовая архитектура MLOps версии 2 для Машинное обучение — это классический сценарий машинного обучения для табличных данных. Архитектуры CV и NLP создаются и изменяют эту базовую архитектуру.

MLOps версии 2 охватывает следующие архитектуры, описанные в этой статье:

Классическая архитектура машинного обучения
архитектура Машинное обучение CV
архитектура обработки естественного языка Машинное обучение

Классическая архитектура машинного обучения

Скачайте файл Visio для этой архитектуры.

Рабочий процесс классической архитектуры машинного обучения

Пространство данных

Этот компонент иллюстрирует свойство данных организации и потенциальные источники данных и целевые объекты для проекта обработки и анализа данных. Инженеры данных являются основными владельцами этого компонента жизненного цикла MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Зеленый флажок указывает источники данных и целевые объекты, представляющие рекомендуемые рекомендации, основанные на варианте использования клиента.
Администрирование и настройка

Этот компонент является первым шагом в развертывании акселератора MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Например, команда инфраструктуры может:
1. Создайте репозитории исходного кода проекта.
2. Используйте Bicep или Terraform для создания рабочих областей Машинное обучение.
3. Создание или изменение наборов данных и вычислительных ресурсов для разработки и развертывания моделей.
4. Определите пользователей группы проектов, их роли и элементы управления доступом к другим ресурсам.
5. Создание конвейеров CI/CD.
6. Создайте компоненты мониторинга для сбора и создания оповещений для метрик модели и инфраструктуры.
Основной человек, связанный с этим этапом, является команда инфраструктуры, но организация может также иметь инженеров данных, инженеров машинного обучения или специалистов по обработке и анализу данных.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, который действует в выделенной и безопасной рабочей области Машинное обучение. На предыдущей схеме показан типичный рабочий процесс. Процесс начинается с приема данных, перемещается через аналитический анализ данных, экспериментацию, разработку и оценку моделей, а затем регистрирует модель для использования в рабочей среде. Этот модульный компонент, реализованный в акселераторе MLOps версии 2, не зависит от процесса, который команда обработки и анализа данных использует для разработки моделей.

Лица, связанные с этим этапом, включают специалистов по обработке и анализу данных и инженеров машинного обучения.
реестры Машинное обучение

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически путем регистрации модели или путем утверждения в цикле человека, повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.

Лица, связанные с этим этапом, обычно являются инженерами машинного обучения.
Развертывание модели (этап внешнего цикла)

Развертывание модели или этап внешнего цикла состоит из предварительной подготовки и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.

Лица, связанные с этим этапом, являются главным образом инженерами машинного обучения.
Промежуточное и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как переобучение и тестирование кандидата модели на рабочих данных, тестирование развертываний для производительности конечных точек, проверок качества данных, модульного тестирования и ответственных проверок ИИ для модели и смещения данных. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание в производстве

После прохождения промежуточного и тестового этапа модель инженеры машинного обучения могут использовать утверждение, созданное человеком в цикле, для повышения его уровня в рабочей среде. Варианты развертывания модели включают управляемую конечную точку пакетной службы для сценариев пакетной службы или управляемой сетевой конечной точки или развертывания Kubernetes, которая использует Azure Arc для онлайн-сценариев практически в режиме реального времени. Как правило, производство выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Наблюдение

Инженеры машинного обучения отслеживают компоненты промежуточного, тестирования и рабочей среды для сбора метрик, связанных с изменениями производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку смещения моделей и данных, производительность модели на новых данных и ответственные проблемы с ИИ. Мониторинг инфраструктуры может выявить медленный ответ конечной точки, неадекватную емкость вычислений или сетевые проблемы.
Мониторинг данных и моделей: события и действия

На основе критериев модели и данных, таких как пороговые значения метрик или расписания, автоматизированные триггеры и уведомления могут реализовать соответствующие действия. Например, триггер может переобучение модели для использования новых рабочих данных, а затем циклического восстановления модели до промежуточного и тестирования для предварительной оценки. Или проблема с моделью или данными может вызвать действие, которое требует обратного цикла к этапу разработки модели, где специалисты по обработке и анализу данных могут исследовать проблему и потенциально разработать новую модель.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить вычислительные ресурсы и сетевые ресурсы.

архитектура Машинное обучение CV

Скачайте файл Visio для этой архитектуры.

Рабочий процесс для архитектуры CV

Архитектура Машинное обучение CV основана на классической архитектуре машинного обучения, но она имеет изменения, относящиеся к защищенным сценариям CV.

Пространство данных

Этот компонент демонстрирует хранилище данных организации и потенциальные источники данных и целевые объекты для проекта обработки и анализа данных. Инженеры данных являются основными владельцами этого компонента в жизненном цикле MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Изображения для сценариев CV могут поступать из различных источников данных. Для повышения эффективности при разработке и развертывании моделей CV с Машинное обучение рекомендуется Хранилище BLOB-объектов Azure и Azure Data Lake Storage.
Администрирование и настройка

Этот компонент является первым шагом в развертывании акселератора MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Для сценариев CV администрирование и настройка среды MLOps версии 2 в значительной степени совпадает с классическим машинным обучением, но включает дополнительный шаг. Команда инфраструктуры использует функцию маркировки Машинное обучение или другого средства для создания проектов маркировки изображений и заметок.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, выполняемого в выделенной и безопасной рабочей области Машинное обучение. Основное различие между этим рабочим процессом и классическим сценарием машинного обучения заключается в том, что метка изображений и заметки являются ключевым компонентом этого цикла разработки.
реестры Машинное обучение

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически регистрацией модели или прикрытым утверждением типа "человек в цикле", повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.
Развертывание модели (этап внешнего цикла)

Этап развертывания модели или внешнего цикла состоит из предварительного развертывания и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.
Промежуточное и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как тестовые развертывания для производительности конечных точек, проверки качества данных, модульного тестирования и ответственные проверки ИИ на наличие предвзятости моделей и данных. Для сценариев CV инженеры машинного обучения не должны переобучивать кандидат модели на рабочие данные из-за ограничений ресурсов и времени. Вместо этого команда обработки и анализа данных может использовать рабочие данные для разработки моделей. Кандидатная модель, зарегистрированная в цикле разработки, оценивается для рабочей среды. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание в производстве

После прохождения промежуточного и тестового этапа модель инженеры машинного обучения могут использовать утверждение, созданное человеком в цикле, для повышения его уровня в рабочей среде. Варианты развертывания модели включают управляемую конечную точку пакетной службы для сценариев пакетной службы или управляемой сетевой конечной точки или развертывания Kubernetes, которая использует Azure Arc для онлайн-сценариев практически в режиме реального времени. Как правило, производство выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Наблюдение

Инженеры машинного обучения отслеживают компоненты промежуточного, тестирования и рабочей среды для сбора метрик, связанных с изменениями производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку производительности модели на новых изображениях. Мониторинг инфраструктуры может выявить медленный ответ конечной точки, неадекватную емкость вычислений или сетевые проблемы.
Мониторинг данных и моделей: события и действия

Этапы мониторинга данных и модели и событий и действий MLOps для обработки естественного языка являются ключевыми отличиями от классического машинного обучения. Автоматическая переобучение обычно не выполняется в сценариях CV при обнаружении снижения производительности модели на новых изображениях. В этом случае процесс "человек в цикле" необходим для проверки и анимации новых текстовых данных для модели, которая выполняется плохо. Следующее действие часто возвращается к циклу разработки модели, чтобы обновить модель с новыми изображениями.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить среду, вычислительные ресурсы и сетевые ресурсы.

архитектура обработки естественного языка Машинное обучение

Скачайте файл Visio для этой архитектуры.

Рабочий процесс для архитектуры обработки естественного языка

Архитектура обработки естественного языка Машинное обучение основана на классической архитектуре машинного обучения, но имеет некоторые изменения, относящиеся к сценариям NLP.

Пространство данных

Этот компонент демонстрирует хранилище данных организации и потенциальные источники данных и целевые объекты для проекта обработки и анализа данных. Инженеры данных являются основными владельцами этого компонента в жизненном цикле MLOps версии 2. Платформы данных Azure на этой схеме не являются исчерпывающими или предписательными. Зеленый флажок указывает источники и целевые объекты, представляющие рекомендуемые рекомендации, основанные на варианте использования клиента.
Администрирование и настройка

Этот компонент является первым шагом в развертывании акселератора MLOps версии 2. Она состоит из всех задач, связанных с созданием и управлением ресурсами и ролями, связанными с проектом. Для сценариев обработки естественного языка администрирование и настройка среды MLOps версии 2 в значительной степени совпадают с классическим машинным обучением, но с дополнительным шагом: создание проектов меток и заметок с помощью функции маркировки Машинное обучение или другого средства.
Разработка моделей (внутренний этап цикла)

Этап внутреннего цикла состоит из итеративного рабочего процесса обработки и анализа данных, выполняемого в выделенной и безопасной рабочей области Машинное обучение. Типичный цикл разработки модели NLP отличается от классического сценария машинного обучения в том, что типичные этапы разработки для этого сценария включают аннотаторы для предложений и маркеризации, нормализации и внедрения текстовых данных.
реестры Машинное обучение

После того как команда по обработке и анализу данных разрабатывает модель, которую они могут развернуть в рабочей среде, они регистрируют модель в реестре рабочих областей Машинное обучение. Конвейеры CI, которые активируются автоматически регистрацией модели или прикрытым утверждением типа "человек в цикле", повышают уровень модели и любые другие зависимости модели до этапа развертывания модели.
Развертывание модели (этап внешнего цикла)

Этап развертывания модели или внешнего цикла состоит из предварительного развертывания и тестирования, развертывания рабочей среды и мониторинга модели, данных и инфраструктуры. Когда модель соответствует критериям организации и варианта использования, конвейеры CD способствуют модели и связанным ресурсам через производство, мониторинг и потенциальное переобучение.
Промежуточное и тестирование

Этап промежуточного и тестового тестирования зависит от методик клиента. Этот этап обычно включает такие операции, как переобучение и тестирование кандидата модели на рабочих данных, тестирование развертываний для производительности конечных точек, проверок качества данных, модульного тестирования и ответственных проверок ИИ для модели и смещения данных. Этот этап выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Развертывание в производстве

После прохождения промежуточного и тестового этапа модель инженеры машинного обучения могут использовать утверждение, созданное человеком в цикле, для повышения его уровня в рабочей среде. Варианты развертывания модели включают управляемую конечную точку пакетной службы для сценариев пакетной службы или управляемой сетевой конечной точки или развертывания Kubernetes, которая использует Azure Arc для онлайн-сценариев практически в режиме реального времени. Как правило, производство выполняется в одной или нескольких выделенных и безопасных рабочих областях Машинное обучение.
Наблюдение

Инженеры машинного обучения отслеживают компоненты промежуточного, тестирования и рабочей среды для сбора метрик, связанных с изменениями производительности модели, данных и инфраструктуры. Они могут использовать эти метрики для принятия мер. Мониторинг моделей и данных может включать проверку смещения моделей и данных, производительность модели на новых текстовых данных и ответственные проблемы СИ. Мониторинг инфраструктуры может выявить проблемы, такие как медленный ответ конечной точки, неадекватная емкость вычислений и сетевые проблемы.
Мониторинг данных и моделей: события и действия

Как и в архитектуре CV, данные и модели мониторинга и этапы событий и действий MLOps для обработки естественного языка являются ключевыми отличиями от классического машинного обучения. Автоматическая переобучение обычно не выполняется в сценариях обработки естественного языка при обнаружении снижения производительности модели на новом тексте. В этом случае процесс "человек в цикле" необходим для проверки и анимации новых текстовых данных для модели, которая выполняется плохо. Часто следующее действие — вернуться к циклу разработки модели, чтобы обновить модель с новыми текстовыми данными.
Мониторинг инфраструктуры: события и действия

Автоматические триггеры и уведомления могут реализовать соответствующие действия, которые необходимо выполнить на основе критериев инфраструктуры, таких как задержка ответа конечной точки или недостаточное количество вычислительных ресурсов для развертывания. Автоматические триггеры и уведомления могут активировать цикл обратно в этап установки и администрирования, где команда инфраструктуры может исследовать проблему и потенциально перенастроить вычислительные ресурсы и сетевые ресурсы.

Компоненты

Машинное обучение — это облачная служба, которую можно использовать для обучения, оценки, развертывания и управления моделями машинного обучения в масштабе.
Azure Pipelines — это система сборки и тестирования, основанная на Azure DevOps и используемая для конвейеров сборки и выпуска. Azure Pipelines разделяет эти конвейеры на логические шаги, называемые задачами.
GitHub — это платформа размещения кода для рабочих процессов управления версиями, совместной работы и CI/CD.
Azure Arc — это платформа, которая использует Azure Resource Manager для управления ресурсами Azure и локальными ресурсами. Ресурсы могут включать виртуальные машины, кластеры Kubernetes и базы данных.
Kubernetes — это система с открытым исходным кодом, которую можно использовать для автоматизации развертывания, масштабирования и управления контейнерными приложениями.
Azure Data Lake Storage — это файловая система, совместимая с Hadoop. Он имеет интегрированное иерархическое пространство имен и масштабируемую и экономию хранилища BLOB-объектов.
Azure Synapse Analytics — это безграничная служба аналитики, которая объединяет интеграцию данных, хранение корпоративных данных и аналитику больших данных.
Центры событий Azure — это служба, которая использует потоки данных, создаваемые клиентскими приложениями. Затем он получает и сохраняет потоковые данные, которые сохраняют последовательность полученных событий. Клиенты могут подключаться к конечным точкам концентратора для получения сообщений для обработки. Эта архитектура использует интеграцию Data Lake Storage.

Другие вопросы

Предыдущий шаблон архитектуры MLOps версии 2 имеет несколько критически важных компонентов, включая управление доступом на основе ролей (RBAC), которое соответствует заинтересованным лицам бизнеса, эффективному управлению пакетами и надежным механизмам мониторинга. Эти компоненты совместно способствуют успешной реализации и управлению рабочими процессами машинного обучения.

RBAC на основе persona

Важно управлять доступом к данным и ресурсам машинного обучения. RBAC предоставляет надежную платформу для управления тем, кто может выполнять определенные действия и получать доступ к определенным областям в решении. Разработайте стратегию сегментации удостоверений, чтобы выровнять жизненный цикл моделей машинного обучения в Машинное обучение и лица, включенные в процесс. Каждый человек имеет определенный набор обязанностей, которые отражаются в их ролях RBAC и членстве в группах.

Примеры personas

Чтобы обеспечить соответствующую сегментацию в рабочей нагрузке машинного обучения, рассмотрите следующие распространенные лица, которые информируют о разработке группы RBAC на основе удостоверений.

Специалист по обработке и анализу данных и инженер машинного обучения

Специалисты по обработке и анализу данных и инженеры машинного обучения выполняют различные действия по машинному обучению и обработке и анализу данных в жизненном цикле разработки программного обеспечения проекта. Их обязанности включают анализ и предварительную обработку данных. Специалисты по обработке и анализу данных и инженеры машинного обучения отвечают за обучение, оценку и развертывание моделей. Обязанности этих ролей также включают действия по устранению перерыва для моделей машинного обучения, пакетов и данных. Эти обязанности недоступны для службы технической поддержки платформы.