Руководство. Обучение модели машинного обучения без кода (не рекомендуется)

Вы можете обогатить данные в таблицах Spark с помощью новых моделей машинного обучения, обученных с использованием автоматизированного машинного обучения. Пользователь Azure Synapse Analytics может выбрать таблицу Spark в рабочей области, чтобы применить ее в качестве обучающего набора данных для создания моделей машинного обучения без необходимости писать код.

Из этого руководства вы узнаете, как обучать модели машинного обучения с помощью Synapse Studio без написания кода. Synapse Studio — это компонент Azure Synapse Analytics.

Вы воспользуетесь функцией автоматизированного машинного обучения в Машинном обучении Azure, и при этом вам не нужно будет писать код. Тип модели, которую вам предстоит обучить, зависит от решаемой проблемы. В этому учебнике вы будете использовать модель регрессии для прогнозирования тарифов на такси из набора данных о такси Нью-Йорка.

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Предупреждение

  • Начиная с 29 сентября 2023 г. Azure Synapse прекратит официальную поддержку среды выполнения Spark 2.4. После 29 сентября 2023 г. мы не будем обращаться в службу поддержки, связанной с Spark 2.4. Конвейер выпуска не будет применяться для исправлений ошибок или безопасности для Spark 2.4. Использование Spark 2.4 после даты отключения поддержки выполняется по собственному риску. Мы настоятельно не рекомендуем использовать его продолжающееся использование из-за потенциальных проблем безопасности и функциональных возможностей.
  • В рамках процесса нерекомендуемого использования Apache Spark 2.4 мы хотели бы уведомить вас о том, что AutoML в Azure Synapse Analytics также не рекомендуется. Это включает как интерфейс с низким кодом, так и ИНТЕРФЕЙСы API, используемые для создания пробных версий AutoML с помощью кода.
  • Обратите внимание, что функции AutoML были доступны исключительно в среде выполнения Spark 2.4.
  • Для клиентов, желающих продолжить использование возможностей AutoML, рекомендуется сохранить данные в вашей учетной записи Azure Data Lake Storage 2-го поколения (ADLSg2). Оттуда вы можете легко получить доступ к интерфейсу AutoML с помощью Машинное обучение Azure (AzureML). Дополнительные сведения об этом обходной путь доступны здесь.

Необходимые компоненты

Войдите на портал Azure

Войдите на портал Azure.

Создание таблицы Spark для обучающего набора данных

Для работы с этим руководством вам потребуется таблица Spark. Она создается следующей записной книжкой:

  1. Скачайте записную книжку Create-Spark-Table-NYCTaxi-Data.ipynb.

  2. Импортируйте эту записную книжку в Synapse Studio.

    Снимок экрана: Azure Synapse Analytics с выделенным пунктом

  3. Выберите нужный пул Spark и щелкните Запустить все, чтобы получить данные о такси Нью-Йорка из открытого набора данных и сохранить их в базе данных Spark по умолчанию.

    Снимок экрана: Azure Synapse Analytics с выделенным элементом

  4. Когда выполнение этой записной книжки завершится, в базе данных Spark по умолчанию появится новая таблица Spark. В разделе Данные найдите таблицу с именем nyc_taxi.

    Снимок экрана: вкладка

Открытые мастера автоматизированного машинного обучения

Чтобы открыть мастер, щелкните правой кнопкой мыши таблицу Spark, созданную на предыдущем шаге. Затем выберите Машинное обучение>Обучить новую модель.

Снимок экрана: таблица Spark с выделенными элементами

Выберите тип модели

Выберите тип модели машинного обучения для эксперимента в зависимости от того, на какой вопрос вы пытаетесь ответить. Так как прогнозируемое значение является числовым (тариф такси), выберите здесь Регрессия. Затем выберите Continue (Продолжить).

Снимок экрана: страница

Настройка эксперимента

  1. Укажите сведения о конфигурации для создания запуска эксперимента автоматизированного машинного обучения в Машинном обучении Azure. При этом будет выполнено обучение нескольких моделей, из которых лучшая по результатам успешного выполнения будет внесена в реестр моделей Машинного обучения Azure.

    Снимок экрана: спецификации конфигурации для обучения модели машинного обучения.

    • Машинное обучение Azure рабочей области: для создания автоматизированного эксперимента машинного обучения требуется рабочая область Машинное обучение Azure. Вам также нужно связать рабочую область Azure Synapse Analytics с рабочей областью Машинного обучения Azure, используя связанную службу. Когда все предварительные условия будут соблюдены, вы сможете указать рабочую область Машинного обучения Azure для этого автоматического запуска.

    • Имя эксперимента: укажите имя эксперимента. При подготовке автоматического выполнения машинного обучения нужно указать имя эксперимента. Сведения о выполнении эксперимента сохраняются в рабочей области Машинного обучения Azure. Процедура создаст новый эксперимент по умолчанию и предложит для него имя, но вы можете также указать имя существующего эксперимента.

    • Лучшее имя модели: укажите имя лучшей модели из автоматического запуска. Эта модель будет сохранена с указанным именем в реестре моделей Машинного обучения Azure по завершении выполнения. Автоматическое выполнение машинного обучения создает множество моделей машинного обучения. Эти модели будут сравниваться друг с другом по основной метрике, которую вы выберете на более позднем шаге, и из них будет выбрана наилучшая модель.

    • Целевой столбец: модель будет обучаться для его прогнозирования. Выберите столбец в наборе данных, который содержит данные, которые необходимо спрогнозировать. В этом учебнике в качестве целевого используется числовой столбец fareAmount.

    • Пул Spark: укажите пул Spark, который требуется использовать для автоматического выполнения эксперимента. Все вычисления выполняются в указанном пуле.

    • Сведения о конфигурации Spark. Помимо пула Spark у вас есть возможность предоставить сведения о конфигурации сеанса.

  2. Выберите Продолжить.

Настройка модели

Так как вы выбрали вариант Регрессия в качестве типа модели в предыдущем разделе, будут доступны следующие конфигурации (они также доступны для типа модели Классификация):

  • Основная метрика: введите метрику, которая измеряет, насколько хорошо модель выполняется. Эта метрика будет использоваться для сравнения нескольких моделей, созданных в ходе автоматического запуска, и выбора самой точной из них.

  • Время задания обучения (часы): укажите максимальное количество времени в часах для выполнения и обучения моделей эксперимента. Обратите внимание, что здесь можно указать значения меньше 1 (например, 0,5).

  • Максимальное число параллельных итераций: выберите максимальное число итераций, выполняемых параллельно.

  • Совместимость модели ONNX: если этот параметр включен, модели, обученные автоматизированным машинным обучением, преобразуются в формат ONNX. Это особенно важно, если вы хотите использовать модель для оценки в пулах SQL Azure Synapse Analytics.

Эти параметры имеют значения по умолчанию, которые можно настраивать.

Снимок экрана: дополнительные конфигурации для настройки модели регрессии.

Запуск выполнения

После завершения настройки можно запустить автоматическое выполнение. Вы можете создать запуск непосредственно, выбрав Создать запуск. Запуск при этом будет выполнен без кода. Кроме того, если вы предпочитаете использовать код, можно выбрать пункт Открыть в записной книжке. При этом откроется записная книжка с кодом, который создает запуск, чтобы вы могли просмотреть код и самостоятельно выполнить запуск.

Снимок экрана: варианты

Примечание.

Если вы выбрали Прогнозирование временных рядов в качестве типа модели в предыдущем разделе, вам потребуется задать дополнительные настройки. Также режим прогнозирования не поддерживает совместимость с моделью ONNX.

Непосредственное создание запуска

Чтобы непосредственно запустить автоматизированное машинное обучение, выберите Создать запуск. Появится уведомление о запуске выполнения. После этого появится еще одно уведомление об успешном выполнении. Вы также можете проверить состояние в Машинном обучении Azure, щелкнув ссылку в уведомлении.

Снимок экрана: уведомление об успешном выполнении.

Создание запуска с помощью записной книжки

Выберите Открыть в записной книжке, чтобы создать записную книжку. Так вы сможете добавить параметры или иным образом изменить код для запуска автоматизированного машинного обучения. Когда вы будете готовы выполнить код, выберите Выполнить все.

Снимок экрана: записная книжка с выделенным элементом

Мониторинг запуска

Когда выполнение будет успешно отправлено, в выходных данных записной книжки появится ссылка на запуск эксперимента в рабочей области Машинного обучения Azure. Щелкните эту ссылку, чтобы отслеживать автоматическое выполнение в Машинном обучении Azure.

Снимок экрана: Azure Synapse Analytics с выделенной ссылкой.

Следующие шаги