Алгоритм линейной регрессии (Майкрософт)

Статья
07/30/2013

Алгоритм линейной регрессии Microsoft является разновидностью алгоритма дерева принятия решений Microsoft, помогающего рассчитать линейную связь между зависимой и независимой переменной, а затем использовать эту связь при прогнозировании.

Связь принимает вид формулы линии, представляющей ряд данных. Например, линия на следующей диаграмме является наилучшим линейным представлением данных.

Строка, моделирующая набор данных

Каждой точке на диаграмме соответствует ошибка, связанная с ее расстоянием от линии регрессии. Коэффициенты a и b в уравнении регрессии регулируют угол и положение линии регрессии. Можно получать регрессивное уравнение с помощью подбора коэффициентов a и b до тех пор, пока сумма ошибок, связанных с этими точками, не станет минимальной.

Существуют другие типы регрессии, в которых используется несколько переменных, а также нелинейные методы регрессии. Однако линейная регрессия является полезным и широко известным методом моделирования ответа на изменение в каком-либо базовом факторе.

Пример

Линейную регрессию можно использовать для определения связи между двумя непрерывными столбцами. Например, можно использовать линейную регрессию для вычисления линии тренда в производственных данных или данных продаж. Линейную регрессию также можно использовать в качестве основы для разработки более сложных моделей интеллектуального анализа данных; с ее помощью можно оценить связи между столбцами данных.

Хотя существует много способов вычисления линейной регрессии без использования средств интеллектуального анализа данных, преимуществом использования алгоритма линейной регрессии Microsoft для данной задачи является то, что вычисление и проверка всех возможных связей между переменными производится автоматически. Метод вычисления, например вычисление наименьших квадратов, задавать необязательно. Однако линейная регрессия может чрезмерно упростить связи в сценариях, в которых на результат влияют несколько факторов.

Принцип работы алгоритма

Алгоритм линейной регрессии Microsoft является разновидностью алгоритма дерева принятия решений Microsoft. При выборе алгоритма линейной регрессии Microsoft вызывается особый вариант алгоритма дерева принятия решений Microsoft с параметрами, которые ограничивают поведение алгоритма и требуют использования определенных типов данных на входе. Более того, в модели линейной регрессии для вычисления связей при начальном проходе используется весь набор данных; тогда как в стандартной модели дерева принятия решения данные многократно разбиваются на более малые подмножества или деревья.

Данные, необходимые для моделей линейной регрессии

При подготовке данных для использования в модели линейной регрессии необходимо учитывать требования конкретных алгоритмов. Следует учитывать объем необходимых данных и то, как они используются. Для данного типа моделей предъявляются следующие требования.

Единичный столбец. key Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Составные ключи не допускаются.
Прогнозируемый столбец Необходимо наличие по крайней мере одного прогнозируемого столбца. В модель можно включить несколько прогнозируемых атрибутов, однако они должны иметь непрерывные числовые типы данных. Тип данных datetime нельзя использовать в качестве прогнозируемого атрибута даже в случае, если собственный формат хранения данных является числовым.
Входные столбцы. Во входных столбцах должны содержаться непрерывные числовые данные; кроме того, они должны иметь подходящий тип данных.

Дополнительные сведения см. в подразделе «Требования» раздела Технический справочник по алгоритму линейной регрессии (Майкрософт).

Просмотр модели линейной регрессии

Чтобы исследовать модель, можно использовать средство просмотра деревьев (Майкрософт). Структура дерева модели линейной регрессии крайне проста; вся информация регрессионного уравнения содержится в одном узле. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра деревьев (Майкрософт).

Если необходимо получить дополнительные сведения об уравнении, коэффициенты и другие сведения также можно просматривать с помощью средства просмотра деревьев содержимого общего вида (Майкрософт).

В содержимое модели линейной регрессии входят метаданные, формула регрессии и статистика распределения входных значений. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После того как обработка модели была закончена, результаты хранятся в виде набора статистических данных совместно с формулой линейной регрессии, которая в дальнейшем может быть использована для вычисления трендов. Примеры запросов, применимых в модели линейной регрессии, см. в разделе Примеры запросов модели линейной регрессии.

Общие сведения о создании запросов к моделям интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных.

Если прогнозируемый атрибут имеет непрерывный числовой тип данных, в дополнение к созданию модели линейной регрессии путем выбора алгоритма линейной регрессии Microsoft можно создать модель дерева принятия решений, содержащую регрессии. В этом случае алгоритм разобьет данные при обнаружении точек, подходящих для разделения, но для некоторых областей данных будет создана формула регрессии. Дополнительные сведения о деревьях регрессии в моделях дерева принятия решений см. в разделе Содержимое моделей интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).

Замечания

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP.