Использование интерфейса AutoML с низким кодом в Fabric

Интерфейс AutoML с низким кодом в Fabric упрощает работу с машинным обучением, указав задачу машинного обучения и несколько базовых конфигураций. На основе этих выборов пользовательский интерфейс AutoML создает предварительно настроенную записную книжку, адаптированную для входных данных. При запуске записной книжки он автоматически регистрирует и отслеживает все метрики модели и итерации в существующих экспериментах машинного обучения и элементах модели, предоставляя упорядоченный и эффективный способ управления производительностью модели и оценки производительности модели.

Предварительные требования

  • Получите подписку Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.

  • Войдите в Microsoft Fabric.

  • Перейдите к Fabric с помощью переключателя интерфейса в левой нижней части домашней страницы.

    Скриншот, показывающий выбор Fabric в меню переключения интерфейса.

Настройка пробной версии автоматизированного машинного обучения

Вы можете удобно запустить мастер AutoML в Fabric непосредственно из существующего эксперимента, модели или элемента ноутбука.

Снимок экрана: точка входа AutoML из элемента эксперимента.

Выбор источника данных

Как пользователь AutoML в Fabric, вы можете выбирать из доступных lakehouse-хранилищ, что упрощает доступ к данным, хранящимся на платформе, и их анализ. Выбрав lakehouse, выберите определенную таблицу или файл для задач AutoML.

Снимок экрана выбора Lakehouse в AutoML.

Совет

При выборе lakehouse можно выбрать таблицу или файл для использования с AutoML. Поддерживаемые типы файлов включают CSV, XLS, XLSX и JSON.

Определение назначения модели машинного обучения

На этом шаге пользователи определяют цель своей модели, выбрав задачу машинного обучения, которая лучше всего соответствует их данным и целям.

Снимок экрана: выбор задачи модели и режима в AutoML.

Мастер Fabric AutoML предлагает следующие задачи машинного обучения:

  • Регрессия: прогнозирование непрерывных числовых значений.
  • Двоичная классификация: для классификации данных в один из двух классов.
  • Классификация нескольких классов: для классификации данных в один из нескольких классов.
  • Прогнозирование. Для прогнозирования данных временных рядов.

После выбора вашей задачи машинного обучения можно выбрать режим АвтоML. Каждый режим задает конфигурации по умолчанию для пробной версии AutoML, например модели для изучения и времени, выделенного для поиска оптимальной модели. Доступные режимы:

  • Быстрый прототип: обеспечивает быстрые результаты, идеально подходит для тестирования и итерации быстро.
  • Интерпретируемый режим: выполняется немного дольше и фокусируется на моделях, которые по сути проще интерпретировать.
  • Best Fit: Проводит более комплексный поиск с расширенной средой выполнения, стремясь найти лучшую модель.
  • Настраиваемый: позволяет вручную настраивать некоторые параметры в пробной версии AutoML для настраиваемой конфигурации.

Выбор правильной задачи машинного обучения и режима AutoML гарантирует, что мастер AutoML соответствует вашим целям, балансировке скорости, интерпретации и производительности на основе выбранной конфигурации.

Подготовка данных для обучения

На этом шаге вы настроите обучающие данные, которые AutoML будет использовать для сборки модели. Начните с выбора столбца прогнозирования, это целевой столбец, который ваша модель будет обучена предсказывать.

Снимок экрана: настройка обучающих данных для AutoML.

Выбрав столбец прогнозирования, вы можете дополнительно настроить способ обработки входных данных:

  • Типы данных: Проверьте и настройте типы данных для каждого входного столбца, чтобы обеспечить совместимость и оптимизировать производительность модели.
  • Метод вменения. Выберите способ обработки отсутствующих значений в наборе данных, выбрав метод импутации, который заполняет пробелы в данных на основе ваших предпочтений.

Вы также можете включить или отключить параметр автоматической визуализации . При включении автоматическое извлечение признаков создает дополнительные характеристики для обучения, что потенциально повышает производительность модели за счет извлечения дополнительных сведений из данных. Определение этих параметров данных помогает мастеру AutoML точно интерпретировать и обрабатывать набор данных, повышая качество результатов пробной версии.

Снимок экрана: автоматическое изображение для AutoML.

Укажите окончательные сведения

Теперь вы решаете, как будет выполнено испытание AutoML, а также правила наименования для вашего эксперимента и выходных данных. У вас есть два варианта выполнения пробной версии AutoML:

  • Обучение нескольких моделей одновременно: Этот вариант идеально подходит, если данные можно загрузить в DataFrame pandas, что позволяет использовать кластер Spark для параллельного запуска нескольких моделей. Этот подход ускоряет процесс пробной версии, обучая несколько моделей одновременно.

  • Обучение моделей последовательно с помощью Spark: этот параметр подходит для больших наборов данных или для тех, которые получают преимущества распределенного обучения. Он использует Spark и SynapseML для изучения распределенных моделей, обучая одну модель одновременно с масштабируемостью, которую предоставляет Spark.

Примечание.

В настоящее время режим Spark не поддерживает ведение журнала входных и выходных схем для моделей на основе Spark. Эта схема является обязательным полем для функции PREDICT SynapseML. В качестве обходного решения можно загрузить модель непосредственно с использованием MLflow и выполнить вывод в блокноте, обойдя необходимость схемы для предсказания.

После выбора режима выполнения завершите настройку, указав имена записной книжки, эксперимента и модели. Эти соглашения об именовании помогают упорядочивать ресурсы AutoML в Fabric и упрощают отслеживание пробных версий и управление ими. После завершения записная книжка создается на основе выбранных вариантов, готова к выполнению и настройке по мере необходимости.

Проверка и создание записной книжки

На последнем шаге у вас есть возможность просмотреть все параметры AutoML и просмотреть созданный код, соответствующий выбранным параметрам. Это ваша возможность убедиться, что выбранная задача машинного обучения, режим, настройка данных и другие конфигурации соответствуют вашим целям.

Снимок экрана финального этапа настройки AutoML.

После удовлетворения вы можете завершить этот шаг, чтобы создать записную книжку, содержащую все компоненты пробной версии AutoML. Эта записная книжка позволяет отслеживать каждый этап процесса, от подготовки данных к оценке модели и служить исчерпывающей записью вашей работы. Вы также можете дополнительно настроить эту записную книжку, изменив код и параметры, чтобы уточнить результаты пробной версии AutoML.

Отслеживание запусков AutoML

После выполнения блокнота код AutoML использует ведение журнала MLflow для автоматического отслеживания ключевых метрик и параметров для каждой модели, протестированной в ходе тестирования. Эта простая интеграция позволяет отслеживать и просматривать каждую итерацию запуска AutoML, не требуя дополнительной настройки.

Снимок экрана с просмотром запусков AutoML в эксперименте машинного обучения.

Чтобы просмотреть результаты пробной версии AutoML, выполните следующие действия.

  1. Перейдите к элементу эксперимента машинного обучения. В эксперименте машинного обучения можно отслеживать все различные запуски, созданные процессом AutoML. Каждый журнал запуска содержит ценные сведения, такие как метрики производительности модели, параметры и конфигурации, что упрощает анализ и сравнение результатов.

  2. Просмотрите конфигурации AutoML: Для каждой пробной версии AutoML вы найдете используемые конфигурации AutoML, предоставляя аналитические сведения о том, как была настроена каждая модель и какие параметры привели к оптимальным результатам.

  3. Найдите лучшую модель: откройте модель машинного обучения, чтобы получить доступ к окончательной, оптимальной модели из пробной версии AutoML.

Этот рабочий процесс отслеживания помогает упорядочивать, оценивать и управлять моделями, обеспечивая полную видимость производительности и параметров каждой модели, протестированной в пробной версии AutoML. Здесь можно использовать интерфейс SYNapseML PREDICT или создавать прогнозы непосредственно из записных книжек.

Следующие шаги