Регрессия Пуассона

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

Используйте этот компонент для создания модели регрессии Пуассона в конвейере. Регрессия Пуассона предназначена для прогнозирования числовых значений, обычно счетчиков. Поэтому этот компонент следует использовать для создания этого компонента только в том случае, если значения, которые вы пытаетесь спрогнозировать, соответствуют следующим условиям:

  • Переменная ответа имеет распределение Пуассона.

  • Количество не может быть отрицательным. При попытке использовать метод с отрицательными метками произойдет сбой.

  • Учитывая дискретный характер распределения Пуассона, этот метод бессмысленно использовать для дробных чисел.

Совет

Если цель не заключается в подсчете количеств, то возможно распределение Пуассона является не подходящим способом. Попробуйте другие компоненты регрессии в конструкторе.

После настройки метода регрессии необходимо обучить модель с помощью набора данных, содержащего примеры значения, которое необходимо спрогнозировать. После этого обученная модель используется для прогнозирования.

Дополнительные сведения о регрессии Пуассона

Регрессия Пуассона — это особый тип регрессионного анализа, который обычно используется для счетчиков моделей. Например, регрессия Пуассона может быть полезна в следующих случаях:

  • Моделирование числа заболеваний, связанных с перелетами в самолетах

  • Оценка количества вызовов службы аварийного обслуживания во время события

  • Проецирование количества запросов клиентов вслед за продвижением

  • Создание таблиц вероятностей

Так как переменная ответа имеет распределение Пуассона, модель принимает различные предположения о данных и их вероятном распределении в сравнении, например, с регрессией наименьших квадратов. Таким образом модели Пуассона должны интерпретироваться не так, как другие модели регрессии.

Настройка регрессии Пуассона

  1. Добавьте компонент "Регрессия Пуассона" в конвейер конструктора. Вы можете найти этот компонент в разделе "Алгоритмы Машинного обучения" в категории "Регрессия".

  2. Добавьте набор данных, содержащий обучающие данные правильного типа.

    Рекомендуется использовать Нормализация данных, чтобы нормализовать входной набор данных перед его использованием для обучения регрессора.

  3. В правой области компонента "Регрессия Пуассона" укажите, как должна быть обучена модель, установив параметр "Создать режим учителя".

    • Single Parameter (Одиночный параметр). Если вы знаете, как хотите настроить модель, предоставьте определенный набор значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучшие параметры, выполните очистку параметров с помощью компонента "Настройка гиперпараметров модели". Учитель выполняет итерацию по нескольким указанным вами значениям, чтобы найти оптимальную конфигурацию.

  4. Отклонение оптимизации. Введите значение, которое определяет интервал отклонения во время оптимизации. Чем ниже значение, тем медленнее и точнее подгонка.

  5. Вес регуляризации L1 и вес регуляризации L2. Введите значения, используемые для регуляризации L1 и L2. Регуляризация добавляет ограничения алгоритма относительно аспектов модели, которые не зависят от данных для обучения. Регуляризация обычно используется, чтобы избежать переобучения.

    • Регуляризация L1 применяется для получения максимально разреженной модели.

      Регуляризация L1 выполняется путем вычитания веса L1 вектора веса из выражения потерь, которые ученик пытается свести к минимуму. Нормой L1 является хорошее приближение к норме L0, являющейся числом ненулевых координат.

    • Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Регуляризация L2 полезна в том случае, если целью является создание модели, имеющей в целом малые значения веса.

    В этом компоненте можно применить сочетание регуляризации L1 и L2. Объединив регуляризации L1 и L2, вы можете снизить величину значений параметров. Ученик пытается свести к минимуму снижение наряду с минимизацией потерь.

    Хорошее описание работы с регуляризацией L1 и L2 см. в разделе Регуляризация L1 и L2 для Машинного обучения.

  6. Объем памяти для L-BFGS. Укажите объем памяти, резервируемый для подгонки и оптимизации модели.

    L-BFGS — это конкретный метод оптимизации, основанный на алгоритме Бройден-Флетчера-Гольдфарб-Шанно (БФГС). Метод использует ограниченный объем памяти (L) для расчета следующего направления шага.

    Изменив этот параметр, вы можете указать число прошлых позиций и градиентов, сохраняемых для вычисления следующего этапа.

  7. Подключите обучающий набор данных и необученную модель к одному из обучающих компонентов:

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте компонент Обучение модели.

    • Если для параметра Создать режим учителя задано значение Диапазон параметров, используйте компонент Настройка гиперпараметров модели.

    Предупреждение

    • При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

    • Если передать в компонент Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон для каждого параметра, он пропускает эти значения и использует значения по умолчанию для обучаемого объекта.

    • Если выбран вариант Диапазон параметров и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время подбора параметров, даже если другие параметры меняются в диапазоне значений.

  8. Отправьте конвейер.

Результаты

После завершения обучения:

  • Чтобы сохранить моментальный снимок обученной модели, выберите компонент обучения, а затем перейдите на вкладку Выходные данные и журналы на правой панели. Щелкните значок Зарегистрировать набор данных. Вы можете найти сохраненную как компонент модель в дереве компонентов.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.