Настройка обучения AutoML без кода с помощью пользовательского интерфейса Студии машинного обучения Azure

Из этой статьи вы узнаете, как настраивать задания обучения AutoML без единой строки кода с помощью автоматизированного ML службы "Машинное обучение Azure" в Студии машинного обучения Azure.

Автоматизированное машинное обучение (AutoML) — это процесс выбора оптимального алгоритма машинного обучения для конкретных данных. Этот процесс позволяет быстро создавать модели машинного обучения. Дополнительные сведения о том, как Машинное обучение Azure реализует автоматизированное машинное обучение.

Полный пример см. в учебнике по использованию AutoML для обучения моделей классификации без написания кода.

Чтобы воспользоваться функцией создания кода на Python, настройте эксперименты машинного обучения с помощью пакета SDK для Машинного обучения Azure.

Предварительные требования

Начало работы

  1. Войдите в Студию машинного обучения Azure.

  2. Выберите подписку и рабочую область.

  3. Перейдите в область слева. В разделе Автор выберите Автоматизированное машинное обучение.

Область навигации в Студии машинного обучения Azure

Если вы впервые создаете эксперимент, вы увидите пустой список и ссылки на документацию.

В противном случае вы увидите список последних экспериментов для автоматизированного машинного обучения, включая созданные с помощью пакета SDK.

Создание и запуск эксперимента

  1. Выберите + Создать задание автоматизированного машинного обучения и заполните форму.

  2. Выберите ресурс данных из контейнера хранилища или создайте новый ресурс. Ресурсы данных можно создавать на основе локальных файлов, URL-адресов в Интернете, хранилищ данных или открытых наборов данных Azure. Дополнительные сведения о создании ресурсов данных см. здесь.

    Важно!

    Требования к обучающим данным:

    • Данные должны иметь табличный формат.
    • В данных должно присутствовать прогнозируемое значение (целевой столбец).
    1. Чтобы создать новый набор данных на основе файла на локальном компьютере, нажмите +Создать набор данных, а затем выберите Из локального файла.

    2. В форме Общие сведения присвойте набору данных уникальное имя и по желанию добавьте описание.

    3. Нажмите Далее, чтобы открыть форму выбора хранилища данных и файлов. В этой форме следует выбрать, куда отправить набор данных: в контейнер хранилища по умолчанию, который автоматически создается вместе с рабочей областью, или другой контейнер хранилища, который вы хотите использовать для эксперимента.

      1. Если данные находятся за виртуальной сетью, необходимо включить функцию пропустить проверку, чтобы убедиться, что рабочая область может получить доступ к данным. Дополнительные сведения см. в статье Использование Студии машинного обучения Azure в виртуальной сети Azure.
    4. Нажмите кнопку Обзор, чтобы отправить файл данных для набора данных.

    5. Проверьте точность заполнения формы параметров и предварительного просмотра. Для формы применяется интеллектуальное заполнение на основе типа файла.

      Поле Описание
      Формат файла Свойство определяет структуру и тип данных, хранящихся в файле.
      Разделитель Один или несколько символов для указания границы между отдельными, независимыми регионами в виде простого текста или других потоков данных.
      Кодирование Определяет, какой бит следует использовать в таблице схемы символов, чтобы считать набор данных.
      Заголовки столбцов Указывает, как будут обрабатываться заголовки набора данных, если таковые имеются.
      Пропустить строки Указывает, сколько строк, если таковые имеются, пропускается в наборе данных.

      Выберите Далее.

    6. Для формы схемы используется интеллектуальное заполнение с учетом выбора в форме параметров и предварительного просмотра. Здесь можно настроить тип данных для каждого столбца, проверить имена столбцов и выбрать столбцы, которые не следует включать в эксперимент.

      Выберите Далее.

    7. В форме подтверждения сведений приведена сводка по данным, которые были ранее введены в формах общих сведений и параметров и предварительного просмотра. С помощью вычислений среды с поддержкой профилирования вы также можете создать профиль данных для набора данных. Подробная информация о профилировании данных.

      Выберите Далее.

  3. Выберите только что созданный набор данных, когда он появится в списке. Вы также можете воспользоваться предварительным просмотром набора данных и просмотреть пример статистики.

  4. В форме Настройка задания нажмите Создать и введите Tutorial-automl-deploy в качестве имени эксперимента.

  5. Выберите целевой столбец. Это столбец, по которому необходимо выполнить прогнозирование.

  6. Выберите тип вычисления для задания профилирования данных и обучения. Можно выбрать вычислительный кластер или вычислительный экземпляр.

  7. Выберите вычисление из раскрывающегося списка существующих вычислений. Чтобы создать вычислительную среду, следуйте инструкциям для шага 8.

  8. Щелкните Create a new compute (Создать вычислительную среду) и настройте контекст вычислений для этого эксперимента.

    Поле Описание
    Имя вычислительной среды Введите уникальное имя для идентификации контекста вычислительной среды.
    Приоритет виртуальной машины Низкоприоритетные виртуальные машины дешевле, но не гарантируют доступность вычислительных узлов.
    Тип виртуальной машины Выберите ЦП или GPU для типа виртуальной машины.
    размер виртуальной машины; Выберите размер виртуальной машины для вычислительной среды.
    Min/Max nodes (Минимальное и максимальное количество узлов) Для профилирования данных необходимо указать один или больше узлов. Введите максимальное число узлов для вычислительной среды. Значение по умолчанию — 6 узлов для вычислительной среды Azure ML.
    Дополнительные параметры Эти параметры позволяют настроить учетную запись пользователя и существующую виртуальную сеть для эксперимента.

    Нажмите кнопку создания. Создание вычислительной среды может занять несколько минут.

    Примечание

    По имени созданной или выбранной вычислительной среды можно определить, поддерживает ли она профилирование. (Дополнительные сведения см. в разделе о профилировании данных.)

    Выберите Далее.

  9. В форме типа и параметров задачи выберите тип задачи: классификация, регрессия или прогнозирование. Дополнительные сведения см. в разделе о поддерживаемых типах задач.

    1. Для классификации можно также включить глубокое обучение.

      Если глубокое обучение включено, то проверка ограничена разделением train_validation. Дополнительные сведения о вариантах проверки.

    2. Для прогнозирования можно выполнить следующие действия.

      1. Включить глубокое обучение.

      2. Выбрать столбец времени. Он содержит данные о времени, которые необходимо использовать.

      3. Выбрать горизонт прогнозирования. Он показывает, на сколько единиц времени (минут, часов, дней, недель, месяцев или лет) модель сможет прогнозировать будущее. Чем отдаленнее период, который должна спрогнозировать модель, тем менее точной она становится. Узнайте больше о прогнозе и горизонте прогнозирования.

  10. Необязательно. Просмотрите дополнительные параметры конфигурации, которые можно использовать для лучшего управления заданием обучения. В противном случае применяются значения по умолчанию, основанные на выборе эксперимента и данных.

    Дополнительные конфигурации Описание
    Основная метрика Основная метрика, используемая для оценки модели. Узнайте больше о метриках модели.
    Пояснения для наилучшей модели Выберите, чтобы включить или отключить отображение объяснения для рекомендуемой лучшей модели.
    Эта функция в настоящее время недоступна для некоторых алгоритмов прогнозирования.
    Запрещенные алгоритмы Выберите алгоритмы, которые вы хотите исключить из задания обучения.

    Разрешение алгоритмов доступно только для экспериментов с пакетом SDK.
    См. поддерживаемые алгоритмы для каждого типа задачи.
    Критерий выхода Если выполняется любое из этих условий, задание обучения останавливается.
    Training job time (hours) (Время задания обучения (в часах)). Продолжительность выполнения задания обучения.
    Metric score threshold (Порог оценки метрики). Минимальный показатель метрики для всех конвейеров. Гарантирует, что при наличии определенной целевой метрики вы не потратите на задание обучения больше времени, чем это нужно.
    Параллелизм Max concurrent iterations (Максимальное число одновременных итераций). Максимальное количество конвейеров (итераций) для тестирования в задании обучения. Число итераций при выполнении задания не будет больше указанного числа. Дополнительные сведения о том, как автоматизированное машинное обучение выполняет несколько дочерних заданий в кластерах.
  11. (Необязательно.) Просмотрите параметры конструирования признаков: если вы решили включить Автоматическое конструирование признаков в форме Дополнительные параметры конфигурации, применяются методики конструирования признаков по умолчанию. В разделе Просмотр параметров конструирования признаков можно изменить эти значения по умолчанию и соответствующим образом настроить. Узнайте, как настроить конструирование признаков.

    Снимок экрана с диалоговым окном

  12. Форма Проверка и тестирование [необязательно] позволяет выполнять перечисленные ниже действия.

    1. Укажите тип проверки для использования в задании обучения. Узнайте больше о перекрестных проверках.

      1. Задачи прогнозирования поддерживают только К-кратную перекрестную проверку.
    2. Предоставьте тестовый набор данных (предварительная версия) для оценки рекомендуемой модели, которую автоматизированное машинное обучение сформирует для вас по окончании эксперимента. Если вы предоставите тестовые данные, по окончании эксперимента будет автоматически активировано тестовое задание. Тестовое задание выполняется только в наилучшей модели, рекомендованной автоматическим машинным обучением. Узнайте, как получить результаты выполнения удаленного тестового задания.

      Важно!

      Предоставление тестового набора данных для оценки созданных моделей доступно как предварительная версия функции. Этот возможность является предварительной версией экспериментальной функции и может быть изменена в любое время.

      • Тестовые данные рассматриваются отдельно от обучения и проверки, чтобы не искажать результаты выполнения тестового задания рекомендуемой модели. Дополнительные сведения о смещении при проверке модели.
      • Вы можете предоставить собственный тестовый набор данных или использовать часть учебного набора данных. Тестовые данные должны быть представлены в виде табличного набора данных Машинного обучения Azure.
      • Схема тестового набора данных должна соответствовать тестовому набору данных. Целевой столбец необязателен, но если целевой столбец не указан, тестовые метрики не вычисляются.
      • Тестовый набор данных должен отличаться от учебного или проверочного набора данных.
      • Задания прогнозирования не поддерживают разделение на обучение и тестирование.

      Снимок экрана: форма для выбора данных для проверки и тестирования

Настройка конструирования признаков

В форме Конструирование признаков можно включить или отключить автоматическое конструирование признаков и настроить его параметры для своего эксперимента. Сведения о том, как открыть эту форму, см. в шаге 10 в разделе Создание и запуск эксперимента.

В следующей таблице приведены сводные данные по настройкам, доступным в данный момент в студии.

Столбец Настройка
Включено Указывает, какие столбцы следует включить в обучение.
Тип компонента Изменение типа значения для выбранного столбца.
Подстановка Выбор того, какое значение будет использоваться для подстановки отсутствующих значений в данных.

Конструирование признаков в Студии машинного обучения Azure

Запуск эксперимента и просмотр результатов

Выберите Готово, чтобы запустить эксперимент. Подготовка эксперимента может занять до 10 мин. Выполнение заданий обучения может занять еще 2–3 минуты для завершения работы каждого конвейера.

Примечание

Алгоритмы автоматизированного машинного обучения имеют присущую им случайность, которая может вызвать небольшие отклонения в окончательной оценке рекомендованной модели, например в точности. При необходимости автоматизированное машинное обучение также выполняет операции с данными, такие как разбиение по обучению и тестированию, разбиение по обучению и проверке или перекрестная проверка. Поэтому, если вы запускаете эксперимент с одними и теми же настройками конфигурации и основным показателем несколько раз, вы, вероятно, увидите различия в итоговой оценке каждого эксперимента из-за этих факторов.

Просмотр сведений об эксперименте

Откроется экран Сведения о задании на вкладке Сведения. На этом экране отображается сводка по заданию эксперимента, в том числе строка состояния в верхней части рядом с номером задания.

Вкладка Модели содержит список созданных моделей в порядке оценки метрики. По умолчанию модель с наивысшей оценкой, полученной на основе выбранной метрики, будет в верхней части списка. По мере того как задание обучения использует дополнительные модели, они добавляются в список. Используйте это для быстрого сравнения метрик созданных моделей.

Сведения о задании

Просмотр сведений о задании обучения

Чтобы просмотреть сведения о задании обучения, откройте детали завершенной модели. На вкладке Модель просмотрите сведения, например сводку по модели и гиперпараметры, используемые для выбранной модели.

Сведения о гиперпараметрах

Вы также можете просмотреть диаграммы метрик производительности для определенной модели на вкладке Метрики. Изучите дополнительные сведения о диаграммах.

Сведения об итерациях

На вкладке "Преобразование данных" можно увидеть схему предварительной обработки данных, проектирования признаков, методов масштабирования и алгоритма машинного обучения, которые были применены для создания этой модели.

Важно!

Вкладка "Преобразование данных" доступна в режиме предварительной версии. Эту возможность следует считать экспериментальной и она может измениться в любое время.

Преобразование данных

Просмотр результатов удаленного тестового задания (предварительная версия)

Если вы указали тестовый набор данных или выбрали разделение на обучение и тестирование при настройке эксперимента в форме Проверка и тестирование, автоматизированное машинное обучение автоматически протестирует рекомендуемую модель по умолчанию. В результате автоматизированное машинное обучение вычислит тестовые метрики для оценки качеств рекомендуемой модели и ее прогнозов.

Важно!

Тестирование моделей с помощью тестового набора данных для оценки созданных моделей доступно как предварительная версия функции. Этот возможность является предварительной версией экспериментальной функции и может быть изменена в любое время.

Для просмотра метрик тестового задания рекомендуемой модели выполните указанные ниже действия.

  1. Перейдите на страницу Модели и выберите наилучшую модель.
  2. Выберите вкладку Результаты теста (предварительная версия).
  3. Выберите нужное задание и изучите вкладку Метрики. Вкладка результатов теста рекомендуемой модели с автоматическим тестированием

Для просмотра прогнозов тестирования, используемых для вычисления тестовых метрик, выполните следующие действия:

  1. Прокрутите экран до конца страницы и щелкните ссылку в разделе Набор выходных данных, чтобы открыть набор данных.
  2. На странице Наборы данных откройте вкладку Обзор, чтобы просмотреть прогнозы из тестового задания.
    1. Для просмотра и скачивания файла прогноза можно также выбрать вкладку Выходные данные и журналы, развернуть папку Прогнозы и найти файл predicted.csv.

Для просмотра и скачивания файла прогноза можно также выбрать вкладку "Выходные данные и журналы", развернуть папку "Прогнозы" и найти файл predictions.csv.

Тестовое задание модели создает файл predictions.csv, который хранится в хранилище данных по умолчанию, созданном с помощью рабочей области. Это хранилище могут видеть все пользователи с одинаковой подпиской. Тестовые задания не рекомендуются для сценариев, в которых какая-либо информация, используемая для тестового задания или созданная им, должна оставаться закрытой.

Тестирование существующей модели автоматического машинного обучения (предварительная версия)

Важно!

Тестирование моделей с помощью тестового набора данных для оценки созданных моделей доступно как предварительная версия функции. Этот возможность является предварительной версией экспериментальной функции и может быть изменена в любое время.

После завершения эксперимента вы можете протестировать модели, созданные автоматизированным машинным обучением. Если вы хотите протестировать другую модель, созданную автоматизированным машинным обучением, а не рекомендуемую модель, это можно сделать, выполнив указанные ниже действия.

  1. Выберите существующее задание автоматизированного машинного обучения.

  2. Откройте вкладку Модели для задания и выберите завершенную модель для тестирования.

  3. На странице Сведения модели нажмите кнопку Тестовая модель (предварительная версия), чтобы открыть панель Тестовая модель.

  4. На панели Тестовая модель выберите нужный кластер и тестовый набор данных, которые хотите использовать для тестового задания.

  5. Нажмите кнопку Тест. Схема тестового набора данных должна соответствовать учебному набору данных, но целевой столбец является необязательным.

  6. После успешного создания тестового задания модели на странице Сведения появится сообщение об успешном выполнении. Откройте вкладку Результаты теста, чтобы увидеть ход выполнения задания.

  7. Для просмотра результатов тестового задания откройте страницу Сведения и выполните действия, описанные в разделе Просмотр результатов удаленного тестового задания.

    Форма тестирования модели

Пояснения модели (предварительная версия)

Чтобы лучше понять модель, ознакомьтесь с тем, какие признаки данных (необработанные или сконструированные) влияют на прогнозы модели с помощью панели мониторинга объяснения модели.

Панель мониторинга объяснения модели предоставляет общий анализ обученной модели, а также ее прогнозы и объяснения. Он также позволяет детализировать отдельные точки данных и их индивидуальные важности признака. Дополнительные сведения с объяснением визуализаций панелей мониторинга.

Чтобы получить объяснения для конкретной модели, выполните следующие действия.

  1. На вкладке Модели выберите модель, которую необходимо понять.

  2. Нажмите кнопку Объяснить модель и укажите вычисление, которое можно использовать для создания объяснений.

  3. Перейдите на вкладку Дочерние задания для проверки состояния.

  4. По завершении перейдите к вкладке Пояснения (предварительный просмотр) , содержащей панель мониторинга с объяснениями.

    Панель мониторинга с пояснением к модели

Изменение и отправка заданий (предварительная версия)

Важно!

Возможность копирования, изменения и отправки нового эксперимента на основе существующего доступна как предварительная версия функции. Этот возможность является предварительной версией экспериментальной функции и может быть изменена в любое время.

Автоматизированное машинное обучение позволяет создать новый эксперимент, используя параметры уже существующего, с помощью кнопки Изменить и отправить в пользовательском интерфейсе студии.

Эта функция доступна только для тех экспериментов, которые инициируются из пользовательского интерфейса студии, и требует, чтобы схема данных для нового эксперимента соответствовала схеме исходного эксперимента.

Кнопка Изменить и отправить открывает мастер создания нового задания автоматизированного машинного обучения с уже подставленными данными, параметрами вычислений и экспериментами. Вы можете просматривать все формы и изменять настройки, если это потребуется для нового эксперимента.

Развертывание модели

Теперь, когда у вас есть лучшая модель, можно развернуть ее как веб-службу для прогнозирования новых данных.

Совет

Если вы хотите развернуть модель, созданную с помощью пакета automl с пакетом SDK для Python, необходимо зарегистрировать модель в рабочей области.

После регистрации модели найдите ее в студии, выбрав Модели на левой панели. После открытия модели можно нажать кнопку Развернуть в верхней части экрана, а затем выполнить инструкции, описанные в шаге 2 раздела Развертывание модели.

Автоматизированное машинное обучение позволяет с легкостью развернуть модель без написания кода.

  1. Доступно несколько вариантов развертывания.

    • Вариант 1. Разверните наилучшую модель в соответствии с заданными критериями метрики.

      1. После завершения эксперимента перейдите на страницу родительского задания, выбрав Задание 1 в верхней части экрана.
      2. Выберите модель, указанную в разделе Сводка по лучшей модели.
      3. Нажмите Развернуть в верхнем левом углу окна.
    • Вариант 2. Развертывание определенной итерации модели из этого эксперимента.

      1. Выберите нужную модель на вкладке Модели.
      2. Нажмите Развернуть в верхнем левом углу окна.
  2. Заполните область Развернуть модель, как показано ниже.

    Поле Значение
    Имя Введите уникальное имя развертывания.
    Описание Введите описание, чтобы лучше понять, для чего предназначено это развертывание.
    Тип вычисления Выберите тип конечной точки для развертывания: Azure Kubernetes Service (AKS) или Экземпляр контейнера Azure (ACI).
    Имя вычислительной среды Применимо только к AKS. Выберите имя кластера AKS для развертывания.
    Включить проверку подлинности Выберите этот параметр, чтобы разрешить проверку подлинности на основе токенов или на основе ключей.
    Использовать настраиваемые ресурсы развертывания Включите эту возможность, если хотите отправить собственный скрипт оценки и файл среды. Если нет, автоматизированное машинное обучение предоставит вам эти ресурсы по умолчанию. Узнайте больше о скриптах оценки.

    Важно!

    Имена файлов должны быть длиной не более 32 символов, а также начинаться и заканчиваться буквой или цифрой. Они могут включать в себя дефисы, символы подчеркивания, точки, буквы и цифры. Пробелы недопустимы.

    В меню Дополнительно содержатся признаки развертывания по умолчанию, например коллекция данных и параметры использования ресурсов. Если вы хотите переопределить эти значения по умолчанию, это можно сделать в данном меню.

  3. Выберите Развернуть. Развертывание может занять около 20 минут. После начала развертывания появится вкладка Сводка по модели. Сведения о ходе развертывания см. в разделе Состояние развертывания.

Теперь у вас есть рабочая веб-служба для создания прогнозов! Вы можете проверить прогнозы, запросив соответствующую услугу с помощью встроенной функции поддержки Машинного обучение Azure в Power BI.

Дальнейшие действия