Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Алгоритм линейной регрессии Майкрософт — это вариант алгоритма дерева принятия решений Майкрософт, который помогает вычислить линейную связь между зависимой и независимой переменной, а затем использовать эту связь для прогнозирования.
Связь принимает форму уравнения для строки, которая лучше всего представляет ряд данных. Например, строка на следующей схеме является лучшим линейным представлением данных.
Каждая точка данных на схеме имеет ошибку, связанную с его расстоянием от линии регрессии. Коэффициенты a и b в уравнении регрессии корректируют угол и расположение линии регрессии. Вы можете получить уравнение регрессии, изменив значение a и b, пока сумма ошибок, связанных со всеми точками, достигает минимального значения.
Существуют и другие виды регрессии, использующие несколько переменных, а также нелинейные методы регрессии. Однако линейная регрессия является полезным и хорошо известным методом моделирования ответа на изменение в некотором базовом факторе.
Пример
Для определения связи между двумя непрерывными столбцами можно использовать линейную регрессию. Например, можно использовать линейную регрессию для вычисления линии тренда из производственных или продаж данных. Вы также можете использовать линейную регрессию в качестве предшественника для разработки более сложных моделей интеллектуального анализа данных для оценки связей между столбцами данных.
Хотя существует множество способов вычисления линейной регрессии, которые не требуют средств интеллектуального анализа данных, преимущество использования алгоритма линейной регрессии Майкрософт для этой задачи заключается в том, что все возможные связи между переменными автоматически вычисляются и проверяются. Вам не нужно выбирать метод вычисления, например решение для наименьших квадратов. Однако линейная регрессия может переоценить связи в сценариях, в которых несколько факторов влияют на результат.
Принцип работы алгоритма
Алгоритм линейной регрессии Майкрософт — это вариант алгоритма деревьев принятия решений Майкрософт. При выборе алгоритма линейной регрессии Майкрософт вызывается особый случай алгоритма деревьев принятия решений Майкрософт с параметрами, которые ограничивают поведение алгоритма и требуют определенных типов входных данных. Кроме того, в модели линейной регрессии весь набор данных используется для вычислений связей в начальном проходе, в то время как стандартная модель дерева принятия решений разделяет данные многократно на меньшие подмножества или деревья.
Данные, необходимые для моделей линейной регрессии
При подготовке данных к использованию в модели линейной регрессии необходимо понимать требования для конкретного алгоритма. Это включает в себя количество необходимых данных и способ использования данных. Требования к этому типу модели приведены следующим образом:
Один ключевой столбец Каждая модель должна содержать один числовый или текстовый столбец, который однозначно идентифицирует каждую запись. Составные ключи не разрешены.
Прогнозируемый столбец Требуется по крайней мере один прогнозируемый столбец. В модель можно включить несколько прогнозируемых атрибутов, но прогнозируемые атрибуты должны быть непрерывными числовыми типами данных. Нельзя использовать тип данных datetime в качестве прогнозируемого атрибута, даже если нативное хранилище для данных является числовым.
Входные столбцы Входные столбцы должны содержать непрерывные числовые данные и назначать соответствующий тип данных.
Дополнительные сведения см. в разделе "Требования" технического справочника по алгоритму линейной регрессии Майкрософт.
Просмотр модели линейной регрессии
Чтобы изучить модель, используйте средство просмотра деревьев Microsoft. Структура дерева для модели линейной регрессии очень простая, со всеми сведениями о уравнении регрессии, содержащейся в одном узле. Дополнительные сведения см. в статье "Обзор модели с помощью средства просмотра дерева Майкрософт".
Если вы хотите узнать больше о уравнении, вы также можете просмотреть коэффициенты и другие сведения с помощью средства просмотра дерева содержимого Майкрософт.
Для модели линейной регрессии содержимое модели включает метаданные, формулу регрессии и статистику распределения входных значений. Дополнительные сведения см. в разделе «Содержимое модели интеллектуального анализа данных для моделей линейной регрессии» (службы Analysis Services — интеллектуальный анализ данных).
Создание прогнозов
После обработки модели результаты хранятся в виде набора статистики вместе с формулой линейной регрессии, которую можно использовать для вычисления будущих тенденций. Примеры запросов, используемых с моделью линейной регрессии, см. в примерах запросов модели линейной регрессии.
Общие сведения о создании запросов к моделям интеллектуального анализа данных см. в разделе "Запросы интеллектуального анализа данных".
Помимо создания модели линейной регрессии, выбрав алгоритм линейной регрессии Майкрософт, если прогнозируемый атрибут является непрерывным числовым типом данных, можно создать модель дерева принятия решений, содержащую регрессии. В этом случае алгоритм разделит данные при поиске соответствующих точек разделения, но для некоторых регионов данных вместо этого создадут формулу регрессии. Дополнительные сведения о деревах регрессии в модели деревьев принятия решений см. в разделе "Содержимое модели интеллектуального анализа данных" для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).
Замечания
Не поддерживает использование языка разметки прогнозной модели (PMML) для создания моделей анализа данных.
Не поддерживает создание измерений дата-майнинга.
Поддерживает детализацию.
Поддерживает использование OLAP-моделей для интеллектуального анализа данных.
См. также
Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Техническое руководство по алгоритму линейной регрессии MicrosoftПримеры запросов для модели линейной регрессииСодержание моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных)