Поделиться через


Содержимое модели интеллектуального анализа данных для моделей линейной регрессии (Analysis Services — интеллектуальный анализ данных)

В этом разделе описывается содержимое модели интеллектуального анализа данных, относящееся к моделям, используюющим алгоритм линейной регрессии Майкрософт. Общее описание содержимого модели интеллектуального анализа данных для всех типов моделей см. в разделе "Содержимое модели интеллектуального анализа данных" (Analysis Services - интеллектуальный анализ данных).

Общие сведения о структуре модели линейной регрессии

Модель линейной регрессии имеет чрезвычайно простую структуру. Каждая модель имеет один родительский узел, представляющий модель и его метаданные, а также узел дерева регрессии (NODE_TYPE = 25), содержащий формулу регрессии для каждого прогнозируемого атрибута.

Структура модели для линейной регрессии

Модели линейной регрессии используют тот же алгоритм, что и деревья принятия решений Майкрософт, но разные параметры используются для ограничения дерева, и только непрерывные атрибуты принимаются в качестве входных данных. Однако, так как модели линейной регрессии основаны на алгоритме дерева принятия решений Майкрософт, модели линейной регрессии отображаются с помощью средства просмотра дерева принятия решений Майкрософт. Дополнительные сведения см. в статье "Обзор модели с помощью средства просмотра деревьев Майкрософт".

В следующем разделе объясняется, как интерпретировать информацию в узле формул регрессии. Эта информация относится не только к моделям линейной регрессии, но и к моделям деревьев принятия решений, которые содержат регрессии в части дерева.

Содержимое модели для модели линейной регрессии

В этом разделе приведены подробные сведения и примеры только для этих столбцов в содержимом модели интеллектуального анализа данных, которые имеют определенную релевантность для линейной регрессии.

Сведения о столбцах общего назначения в наборе строк схемы см. в разделе "Содержимое модели интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).

Каталог моделей
Имя базы данных, в которой хранится модель.

MODEL_NAME
Имя модели.

ИМЯ_АТРИБУТА
Корневой узел: Пустой

Узел регрессии: Имя прогнозируемого атрибута.

NODE_NAME
Всегда совпадает с NODE_UNIQUE_NAME.

УЗЕЛ_УНИКАЛЬНОЕ_ИМЯ
Уникальный идентификатор узла в модели. Это значение невозможно изменить.

ТИП_УЗЛА
Модель линейной регрессии выводит следующие типы узлов:

Идентификатор типа узла Тип Описание
двадцать пять Корень дерева регрессии Содержит формулу, описывающую связь между входной и выходной переменной.

NODE_CAPTION
Метка или подпись, связанная с узлом. Это свойство в первую очередь предназначено для отображения.

Корневой узел: Пустой

Узел регрессии: Все.

КАРДИНАЛЬНОСТЬ_ДЕТЕЙ
Оценка количества дочерних элементов, которые имеет узел.

Корневой узел: Указывает количество узлов регрессии. Один узел регрессии создается для каждого прогнозируемого атрибута в модели.

Узел регрессии: Всегда 0.

УНИКАЛЬНОЕ_ИМЯ_РОДИТЕЛЯ
Уникальное имя узла-родителя. Значение NULL возвращается для любых узлов на корневом уровне.

ОПИСАНИЕ_УЗЛА
Описание узла.

Корневой узел: Пустой

Узел регрессии: Все.

ПРАВИЛО УЗЛА
Не используется для моделей линейной регрессии.

ПРАВИЛО_НА_КРАЮ
Не используется для моделей линейной регрессии.

УЗЕЛ_ВЕРОЯТНОСТЬ
Вероятность, связанная с этим узлом.

Корневой узел: 0

Узел регрессии: 1

маргинальная вероятность
Вероятность достижения узла из родительского узла.

Корневой узел: 0

Узел регрессии: 1

РАСПРЕДЕЛЕНИЕ_УЗЛОВ
Вложенная таблица, которая предоставляет статистику о значениях в узле.

Корневой узел: 0

Узел регрессии: Таблица, содержащая элементы, используемые для построения формулы регрессии. Узел регрессии содержит следующие типы значений:

ТипЗначения
1 (отсутствует)
3 (непрерывный)
7 (коэффициент)
8 (увеличение оценки)
9 (статистика)
11 (интерцепт)

поддержка узла
Количество случаев, поддерживающих этот узел.

Корневой узел: 0

Узел регрессии: Количество вариантов обучения.

MSOLAP_MODEL_COLUMN
Имя прогнозируемого атрибута.

MSOLAP_NODE_SCORE
То же, что и NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTION
Метка, используемая для отображения.

Замечания

При создании модели с помощью алгоритма линейной регрессии Microsoft подсистема интеллектуального анализа данных создает специальный экземпляр модели деревьев принятия решений и предоставляет параметры, ограничивающие дерево для хранения всех обучающих данных в одном узле. Все непрерывные входные данные помечены и оцениваются как потенциальные регрессии, но только те регрессии, которые соответствуют данным, сохраняются в качестве регрессоров в конечной модели. Анализ создает либо одну формулу регрессии для каждого регрессора, либо не создает формулы регрессии вовсе.

Вы можете просмотреть полную формулу регрессии в Легенде майнинга, щелкнув узел (ВСЕ) в средство просмотра дерева Microsoft.

Кроме того, при создании модели деревьев принятия решений, которая включает непрерывный прогнозируемый атрибут, иногда дерево имеет узлы регрессии, которые совместно используют свойства узлов дерева регрессии.

Распределение узлов для непрерывных атрибутов

Большая часть важных сведений в узле регрессии содержится в таблице NODE_DISTRIBUTION. В следующем примере показан макет таблицы NODE_DISTRIBUTION. В этом примере структура интеллектуального анализа данных целевой рассылки использовалась для создания модели линейной регрессии, которая прогнозирует доход клиентов на основе возраста. Модель предназначена только для иллюстрации, так как ее можно легко построить с помощью существующей модели данных AdventureWorks2012 и структуры интеллектуального анализа данных.

ИМЯ_АТРИБУТА ATTRIBUTE_VALUE ПОДДЕРЖКА ВЕРОЯТНОСТЬ ДИСПЕРСИЯ ТипЗначения
Годовой доход Отсутствует 0 0.000457142857142857 0 1
Годовой доход 57220.8876687257 17484 0.999542857142857 1041275619.52776 3
Возраст 471.687717702463 0 0 126.969442359327 7
Возраст 234,680904692439 0 0 0 8
Возраст 45.4269617936399 0 0 126.969442359327 9
35793.5477381267 0 0 1012968919.28372 11

Таблица NODE_DISTRIBUTION содержит несколько строк, каждая из которых сгруппирована по переменной. Первые две строки всегда типы значений 1 и 3 и описывают целевой атрибут. Следующие строки содержат сведения о формуле для определенного регрессора. Регрессия — это входная переменная, которая имеет линейную связь с выходной переменной. У вас может быть несколько регрессий, и каждый регрессор будет иметь отдельную строку для коэффициента (VALUETYPE = 7), получения оценки (VALUETYPE = 8) и статистики (VALUETYPE = 9). Наконец, в таблице есть строка, содержащая перехват уравнения (VALUETYPE = 11).

Элементы формулы регрессии

Вложенная таблица NODE_DISTRIBUTION содержит каждый элемент формулы регрессии в отдельной строке. Первые две строки данных в примере результатов содержат сведения о прогнозируемом атрибуте, ежегодном доходе, который моделирует зависимые переменные. В столбце SUPPORT показано количество случаев на поддержку двух состояний этого атрибута: либо значение Годового дохода было доступно, либо значение Годового дохода отсутствовало.

Столбец VARIANCE указывает вычисленную дисперсию прогнозируемого атрибута. Вариативность — это мера того, как разбросанные значения находятся в образце, учитывая ожидаемое распределение. Вариативность здесь вычисляется, принимая среднее значение квадратного отклонения от среднего. Квадратный корень дисперсии также называется стандартным отклонением. Службы Analysis Services не предоставляют стандартное отклонение, но его можно легко вычислить.

Для каждого регрессора выводятся три строки. Они содержат коэффициент, прирост оценки и статистику регрессии.

Наконец, таблица содержит строку, которая предоставляет перехват для уравнения.

Коэффициент

Для каждого регрессии вычисляется коэффициент (VALUETYPE = 7). Сам коэффициент отображается в столбце ATTRIBUTE_VALUE, в то время как столбец VARIANCE указывает на дисперсию коэффициента. Коэффициенты вычисляются таким образом, чтобы максимально увеличить линейность.

Повышение баллов

Оценка увеличения (VALUETYPE = 8) для каждого регрессора отражает оценку интересности атрибута. Это значение можно использовать для оценки полезности нескольких регрессий.

Статистика

Статистика регрессии (VALUETYPE = 9) — это среднее значение атрибута для случаев, имеющих значение. Столбец ATTRIBUTE_VALUE содержит среднее значение, а столбец VARIANCE содержит сумму отклонений от среднего.

Перехватывать

Как правило, перехват (VALUETYPE = 11) или остаточный фрагмент в уравнении регрессии указывает значение прогнозируемого атрибута в точке, где входной атрибут равен 0. Во многих случаях это может произойти не так, и может привести к контринтуитивным результатам.

Например, в модели, которая прогнозирует доход на основе возраста, бесполезно изучать доход в 0 лет. В реальной жизни обычно более полезно знать о поведении линии относительно средних значений. Таким образом, службы SQL Server Analysis Services регулируют отсечение, чтобы выразить каждого регрессора в связи со средним значением.

Эту корректировку трудно увидеть в содержимом модели интеллектуального анализа данных, но она очевидна, если просмотреть завершенное уравнение в Легенде интеллектуального анализа данных средства Microsoft Tree Viewer. Формула регрессии сдвигается от точки 0 до точки, представляющей среднее значение. В этом представлении представлено более интуитивно понятное представление с учетом текущих данных.

Поэтому, предполагая, что средний возраст доводится до примерно 45 лет, пересечение (VALUETYPE = 11) для регрессионной формулы дает среднее значение дохода.

См. также

Содержимое модели майнинга данных (службы Analysis Services — интеллектуальный анализ данных)
Алгоритм линейной регрессии Майкрософт
Технический справочник по алгоритму линейной регрессии Майкрософт
Примеры запросов модели линейной регрессии