Поделиться через


Изучение модели дерева принятия решений (учебник по интеллектуальному анализу данных — начальный уровень)

 

Применимо к: SQL Server 2016 Preview

Microsoft Алгоритм дерева принятия решений прогнозирует, какие столбцы влияют на решение о приобретении велосипеда на основании оставшихся столбцов в обучающем наборе.

Microsoft Средства просмотра дерева принятия решений содержит следующие вкладки для исследования моделей интеллектуального анализа данных дерева принятия решений:

Дерево принятия решений

Сеть зависимостей

Вкладка «Дерево принятия решений»

На дерева принятия решений вкладке просмотре дерева принятия решений для каждого прогнозируемого атрибута в наборе данных.

В этом случае модель прогнозирует только один столбец Bike Buyer, поэтому существует только одно дерево для просмотра. При наличии нескольких деревьев, можно использовать дерева для выбора другого дерева.

При просмотре TM_Decision_Tree модель в средстве просмотра дерева принятия решений, можно просмотреть наиболее важные атрибуты в левой части диаграммы. «Наиболее важными» означает, что эти атрибуты оказывают наибольшее влияние на результат. Атрибуты на более низком уровне дерева (справа от диаграммы) оказывают меньший эффект.

В этом примере возраст является единственным наиболее важным фактором в прогнозировании покупки велосипеда. Модель группирует заказчиков по возрасту и содержит следующий атрибут более важным для каждой возрастной группы. Например в группе заказчиков в возрасте от 34 до 40 число машин во владении является наиболее надежным прогнозирующим фактором после возраста.

Исследование модели на вкладке «Дерево принятия решений»

  1. Выберите средство просмотра модели интеллектуального анализа вкладке конструктора интеллектуального анализа данных.

    По умолчанию конструктор открывается на первой модели, который был добавлен в структуру, в этом случае TM_Decision_Tree.

  2. Для настройки размера отображения дерева воспользуйтесь кнопками со значком лупы.

    По умолчанию Microsoft просмотра дерева показаны только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Дополнительные уровни можно просмотреть с помощью Показать уровень ползунок или расширение по умолчанию списка.

  3. Передвиньте Показать уровень в четвертой строке.

  4. Задайте для параметра Фон значение 1.

    Изменив Фон можно быстро просмотреть число вхождений в каждый узел, имеющий целевое значение 1 для [Bike Buyer]. В этом конкретном сценарии следует помнить, что каждый вариант представляет покупателя. Значение 1 Указывает, что клиент ранее уже приобрел велосипед; значение 0 Указывает, что клиент не приобрел велосипед. Чем темнее заливка узла, тем больший процент вариантов с нужным целевым значением он содержит.

  5. Наведите курсор на узел с меткой все. В подсказке отобразятся следующие сведения.

    • Общее число вариантов

    • Число вариантов покупки товара, не являющегося велосипедом

    • Число вариантов покупки велосипеда

    • Число вариантов с отсутствующими значениями для элемента [Покупатель велосипеда]

    Можно также поместить курсор над любым узлом в дереве и просмотреть условие, необходимое для достижения этого узла из узла, стоящего перед ним. Также можно просмотреть эти данные в обозначения интеллектуального анализа данных.

  6. Щелкните узел для Age > = 34 и < 41. Отобразится гистограмма в виде тонкой горизонтальной полоски, пересекающей узел. Она показывает распределение клиентов в этом диапазоне возраста, которые раньше покупали (розовый цвет) и не покупали (синий цвет) велосипед. В средстве просмотра показано, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или не имеющие автомобиля, вероятно, купят велосипед. Сделав еще один шаг, мы видим, что вероятность покупки велосипеда увеличивается, если возраст клиента — от 38 до 40 лет.

Поскольку при создании структуры и модели была включена детализация, из вариантов модели и структуры интеллектуального анализа данных можно получить подробные сведения, в том числе для столбцов, не включенных в модель интеллектуального анализа данных (например, столбцов emailAddress, FirstName).

Дополнительные сведения см. в разделе Запросы детализации (интеллектуальный анализ данных).

Углубленная детализация данных вариантов

  1. Щелкните правой кнопкой мыши узел и выберите Детализация затем только столбцы модели.

    Сведения для каждого обучающего варианта отображаются в формате электронной таблицы. Эти сведения получены из представления vTargetMail, выбранного как таблица вариантов при построении структуры интеллектуального анализа данных.

  2. Щелкните правой кнопкой мыши узел и выберите Детализация затем столбцы модели и структуры.

    Отобразится та же электронная таблица со столбцами структуры, присоединенными в конец таблицы.

В начало

Вкладка «Сеть зависимостей»

Сеть зависимостей вкладке отображаются связи между атрибутами, образующими прогнозную модель интеллектуального анализа данных. Средство просмотра «Сеть зависимостей» еще более явно подтверждает предположение, что возраст и регион являются важными факторами в прогнозировании покупки велосипеда.

Исследование модели на вкладке «Сеть зависимостей»
  1. Щелкните Bike Buyer узла для определения его зависимостей.

    Центральный узел сети зависимостей, Bike Buyer, отражает прогнозируемый атрибут модели интеллектуального анализа данных. График демонстрирует все связанные узлы, которые влияют на прогнозируемый атрибут.

  2. Настройка все ссылки ползунок, чтобы определить наиболее влиятельные атрибут.

    По мере перетаскивания ползунка вниз атрибуты, имеющие лишь небольшое влияние на столбец [Bike Buyer], удаляются из диаграммы. Перемещая ползунок, можно узнать, что возраст и регион являются наиболее факторами, влияющими на принятие решения о покупке велосипеда.

Связанные задачи

См. следующие разделы для просмотра данных с использованием других типов моделей.

Следующая задача занятия

Изучение модели кластеризации ( Учебник по основам интеллектуального анализа данных )

См. также:

Задачи и инструкции средства просмотра моделей интеллектуального анализа данных
Вкладка "Дерево принятия решений" (средство просмотра моделей интеллектуального анализа данных)
Вкладка "Сеть зависимостей" (средство просмотра моделей интеллектуального анализа данных)
Просмотр модели с помощью средства просмотра деревьев (Майкрософт)