Компонент двухклассовой логистической регрессии

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Этот компонент используется для создания модели логистической регрессии, которую можно использовать для прогнозирования двух (и только двух) результатов.

Логистическая регрессия является известным статистическим методом, который используется для моделирования различных проблем. Этот алгоритм представляет собой метод контролируемого обучения. Поэтому необходимо предоставить набор данных, который уже содержит результаты для обучения модели.

Сведения о логистической регрессии

Логистическая регрессия — это известный статистический метод, который используется для прогнозирования вероятности результата и особенно широко применяется в задачах классификации. Алгоритм прогнозирует вероятность возникновения события путем подгонки данных логистической функции.

В этом компоненте алгоритм классификации оптимизирован для дихотомических или двоичных переменных. Если необходимо классифицировать несколько результатов, используйте компонент Мультиклассовой логистической регрессии.

Порядок настройки

Чтобы обучить эту модель, необходимо предоставить набор данных, содержащий столбец метки или класса. Поскольку этот компонент предназначен для двухклассовых проблем, в столбце метки или класса должно содержаться ровно два значения.

Например, столбец метки может называться [Проголосовал] с возможными значениями "Да" или "Нет". Или он может называться [Кредитный риск] с возможными значениями "Высокий" или "Низкий".

  1. Добавьте компонент Двухклассовая логистическая регрессия в конвейер.

  2. Укажите, как вы хотите обучать модель, выбрав значение Create trainer mode (Создать режим учителя).

    • Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.

    • Диапазон параметров: если вы не знаете наилучшие параметры, оптимальные варианты можно найти с помощью компонента Настройка гиперпараметров модели. Вы предоставляете некоторый диапазон значений, и учитель выполняет итерацию по нескольким сочетаниям параметров, чтобы определить сочетание значений, которое дает наилучший результат.

  3. Для параметра Отклонение оптимизации укажите пороговое значение, которое будет использоваться при оптимизации модели. Если улучшение между итерациями меньше, чем пороговое значение, то считается, что алгоритм пришел к решению, и обучение останавливается.

  4. Для Вес регуляризации L1 и вес регуляризации L2 введите значение, которое будет использоваться для параметров регуляризации L1 и L2. Для обоих рекомендуется ненулевое значение.
    Регуляризация — это метод предотвращения образования лжевзаимосвязей за счет применения штрафных коэффициентов к моделям с предельными значениями. Регуляризация предполагает добавление штрафа, связанного со значениями коэффициентов, к погрешности гипотезы. Таким образом, к точной модели с предельными коэффициентами будет применен больший штраф. При этом для менее точной модели с более приемлемыми значениями штраф будет меньше.

    Нормализация L1 и L2 имеют различные эффекты и используются.

    • L1 можно применять к разреженным моделям, что полезно при работе с высокомерными данными.

    • В отличие от этого, нормализация L2 предпочтительнее для данных, которые не разрежены.

    Этот алгоритм поддерживает линейное сочетание значений регуляризации L1 и L2. Это означает, что, если x = L1, а y = L2, то ax + by = c определяет линейный диапазон терминов регуляризации.

    Примечание.

    Хотите узнать больше о регуляризации L1 и L2? В статье Регуляризация L1 и L2 для машинного обучения обсуждаются различия между регуляризацией L1 и L2 и их влияние на компоновку моделей, а также приводятся примеры кода для моделей логистической регрессии и нейронной сети.

    Для моделей логистической регрессии, например, регуляризации эластичной сети, были применены различные линейные сочетания терминов L1 и L2. Мы рекомендуем обратиться к этим сочетаниям, чтобы определить линейное сочетание, которое будет эффективным в вашей модели.

  5. Для параметра Объем памяти для L-BFGS укажите объем памяти, который будет использоваться для оптимизации L-BFGS.

    L-BFGS — это алгоритм Бройдена-Флетчера-Гольдфарба-Шанно с ограниченным использованием памяти. Это алгоритм оптимизации, который популярен для оценки параметров. Этот параметр указывает количество прошлых позиций и градиентов для хранения для вычисления следующего шага.

    Этот параметр оптимизации ограничивает объем памяти, используемой для вычисления следующего шага и направления. Если указано меньшее количество памяти, обучение проходит быстрее, но является менее точным.

  6. В качестве начального значения случайного числа введите целое число. Определить начальное значение важно, если результаты должны воспроизводиться в ходе нескольких повторных запусков одного конвейера.

  7. Добавьте в конвейер набор данных с меткой и обучите модель:

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, подключите отмеченный набор данных и компонент Обучение модели.

    • Если для параметра Create trainer mode выбран вариант Parameter Range, подключите набор помеченных данных и обучите модель с помощью модуля Настройка гиперпараметров модели.

    Примечание.

    При передаче диапазона параметров в модуль Обучение модели используется только значение по умолчанию в списке с одиночным параметром.

    Если передать в компонент Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон настроек для каждого параметра, он проигнорирует эти значения и использует значения по умолчанию для средства обучения.

    Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

  8. Отправьте конвейер.

Результаты

После завершения обучения:

  • Чтобы сделать прогнозы по новым данным, используйте обученную модель и новые данные в качестве входных данных для компонента Оценка модели.

Следующие шаги

Ознакомьтесь с набором доступных компонентов для машинного обучения Azure.