Поделиться через


Технический справочник по алгоритму линейной регрессии Майкрософт

Алгоритм линейной регрессии Майкрософт — это специальная версия алгоритма дерева принятия решений Майкрософт, оптимизированного для моделирования пар непрерывных атрибутов. В этом разделе объясняется реализация алгоритма, описывается настройка поведения алгоритма и ссылки на дополнительные сведения о моделях запросов.

Реализация алгоритма линейной регрессии

Алгоритм дерева принятия решений Майкрософт можно использовать для многих задач: линейной регрессии, классификации или анализа связей. Чтобы реализовать этот алгоритм для линейной регрессии, параметры алгоритма управляются, чтобы ограничить рост дерева и сохранить все данные в модели в одном узле. Иными словами, хотя линейная регрессия основана на дереве принятия решений, дерево содержит только один корень и нет ветвей: все данные находятся на корневом узле.

Для этого параметр MINIMUM_LEAF_CASES алгоритма имеет значение больше или равно общему количеству случаев, которые алгоритм использует для обучения модели интеллектуального анализа данных. Таким образом, при использовании набора параметров алгоритм никогда не создаст разделение и, следовательно, выполняет линейную регрессию.

Уравнение, представляющее линию регрессии, принимает общую форму y = ax + b, и называется уравнением регрессии. Переменная Y представляет выходную переменную, X — входную переменную, а a и b — регулируемые коэффициенты. Коэффициенты, перехваты и другие сведения о формуле регрессии можно получить, запрашивая завершенную модель интеллектуального анализа данных. Дополнительные сведения см. в примерах запросов модели линейной регрессии.

Методы оценивания и выбор признаков

Все алгоритмы интеллектуального анализа данных служб Analysis Services автоматически используют выбор компонентов для улучшения анализа и уменьшения нагрузки на обработку. Метод, используемый для выбора признаков в линейной регрессии, является показателем интересности, так как модель поддерживает только непрерывные столбцы. Для справки в следующей таблице показано различие в выборе признаков для алгоритма линейной регрессии и алгоритма дерева принятия решений.

Алгоритм Метод анализа Комментарии
Линейная регрессия Оценка интересности По умолчанию.

Другие методы выбора признаков, доступные алгоритмом дерева принятия решений, применяются только к дискретным переменным и поэтому не применимы к моделям линейной регрессии.
Деревья принятия решений Оценка интересности

Энтропия Шеннона

Байесовский с априорным распределением K2

Байесовский Дирихлеев с равномерным априорным распределением (по умолчанию)
Если для всех столбцов содержатся не двоичные непрерывные значения, оценка интересности используется для всех столбцов, чтобы обеспечить согласованность. В противном случае используется используемый по умолчанию или указанный метод.

Параметры алгоритма, управляющие выбором компонентов для модели дерева принятия решений, MAXIMUM_INPUT_ATTRIBUTES и MAXIMUM_OUTPUT.

Настройка алгоритма линейной регрессии

Алгоритм линейной регрессии Microsoft поддерживает параметры, влияющие на поведение, производительность и точность результирующей модели анализа данных. Вы также можете задать параметры моделирования в столбцах модели интеллектуального анализа данных или столбцах структуры интеллектуального анализа данных, чтобы контролировать процесс обработки данных.

Настройка параметров алгоритма

В следующей таблице перечислены параметры, предоставляемые для алгоритма линейной регрессии Майкрософт.

Параметр Описание
МАКСИМАЛЬНОЕ_КОЛИЧЕСТВО_ВХОДНЫХ_АТРИБУТОВ Определяет количество входных атрибутов, которые алгоритм может обрабатывать перед вызовом выбора компонентов. Задайте для этого значения значение 0, чтобы отключить выбор компонентов.

Значение по умолчанию — 255.
MAXIMUM_OUTPUT_ATTRIBUTES Определяет количество выходных атрибутов, которые алгоритм может обрабатывать перед вызовом выделения компонентов. Задайте для этого значения значение 0, чтобы отключить выбор компонентов.

Значение по умолчанию — 255.
FORCE_REGRESSOR Заставляет алгоритм использовать указанные столбцы в качестве регрессии независимо от важности столбцов, вычисляемых алгоритмом.

Флаги моделирования

Алгоритм линейной регрессии Майкрософт поддерживает следующие флаги моделирования. При создании структуры интеллектуального анализа данных или модели интеллектуального анализа данных вы определяете флаги моделирования, которые указывают, как значения в каждом столбце обрабатываются во время анализа. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).

Флаг моделирования Описание
НЕ ПУСТОЙ Указывает, что столбец не может содержать значение NULL. Ошибка возникнет, если службы Analysis Services столкнутся с null'ом во время обучения модели.

Применяется к столбцам структуры данных.
РЕГРЕССОР Указывает, что столбец содержит непрерывные числовые значения, которые следует рассматривать как потенциальные независимые переменные во время анализа.

Примечание. Пометка столбца как регрессора не гарантирует, что столбец будет использован в качестве регрессора в конечной модели.

Применяется к столбцам модели интеллектуального анализа данных.

Регрессии в моделях линейной регрессии

Модели линейной регрессии основаны на алгоритме деревьев принятия решений Майкрософт. Однако даже если не используется алгоритм линейной регрессии Майкрософт, любая модель дерева принятия решений может содержать дерево или узлы, представляющие регрессию для непрерывного атрибута.

Не нужно указывать, что непрерывный столбец представляет регрессию. Алгоритм деревьев принятия решений Майкрософт секционирует набор данных в регионы с значимыми шаблонами, даже если флаг REGRESSOR не задан в столбце. Разница заключается в том, что при установке флага моделирования алгоритм попытается найти уравнения регрессии формы a*C1 + b*C2 + ... для соответствия шаблонов в узлах дерева. Сумма остатков вычисляется, и если отклонение слишком велико, в дереве принудительно производится разделение.

Например, если вы прогнозируете поведение покупки клиентов с помощью дохода в качестве атрибута и задает флаг моделирования REGRESSOR в столбце, алгоритм сначала попытается соответствовать значениям дохода с помощью стандартной формулы регрессии. Если отклонение слишком велико, формула регрессии отбрасывается, и дерево разделяют на какой-то другой атрибут. Алгоритм дерева решений затем будет пытаться подобрать регрессионную модель для дохода в каждой ветви после разделения.

Вы можете использовать параметр FORCED_REGRESSOR, чтобы гарантировать, что алгоритм будет использовать конкретный регрессор. Этот параметр можно использовать с деревьями принятия решений Майкрософт и алгоритмами линейной регрессии Майкрософт.

Требования

Модель линейной регрессии должна содержать ключевой столбец, входные столбцы и по крайней мере один прогнозируемый столбец.

Входные и предсказуемые столбцы

Алгоритм линейной регрессии Майкрософт поддерживает определенные входные столбцы и прогнозируемые столбцы, перечисленные в следующей таблице. Для получения дополнительных сведений о значении типов контента при их использовании в модели интеллектуального анализа данных см. раздел "Типы контента (интеллектуальный анализ данных)".

колонна Типы содержимого
Входной атрибут Непрерывный, циклический, ключ, таблица и упорядочение
Прогнозируемый атрибут Непрерывный, циклический и упорядоченный

Замечание

Cyclical и Ordered типы контента поддерживаются, но алгоритм рассматривает их как дискретные значения и не выполняет специальную обработку.

См. также

Алгоритм линейной регрессии Майкрософт
Примеры запросов модели линейной регрессии
Содержимое модели интеллектуального анализа данных для моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных)