Поделиться через


Изучение модели дерева принятия решений (учебник по интеллектуальному анализу данных уровня "Базовый")

Алгоритм дерева принятия решений Майкрософт прогнозирует, какие столбцы влияют на решение о покупке велосипеда на основе оставшихся столбцов в наборе обучения.

Вкладка "Дерево принятия решений"

На вкладке "Дерево принятия решений " можно просмотреть деревья принятия решений для каждого прогнозируемого атрибута в наборе данных.

В этом случае модель прогнозирует только один столбец, Покупатель велосипедов, поэтому представлено только одно дерево. Если было больше деревьев, можно использовать поле "Дерево " для выбора другого дерева.

При просмотре TM_Decision_Tree модели в средстве просмотра дерева принятия решений можно увидеть наиболее важные атрибуты в левой части диаграммы. "Самое важное" означает, что эти атрибуты имеют наибольшее влияние на результат. Атрибуты далее вниз по дереву (справа от диаграммы) имеют меньше эффекта.

В этом примере возраст является одним из наиболее важных факторов прогнозирования покупки велосипедов. Модель группирует клиентов по возрасту, а затем показывает следующий наиболее важный атрибут для каждой возрастной группы. Например, в группе клиентов в возрасте от 34 до 40 лет число принадлежащих автомобилей является самым сильным прогнозором после возраста.

Изучение модели на вкладке "Дерево принятия решений"

  1. Выберите вкладку Средство просмотра моделей интеллектуального анализа в Конструкторе интеллектуального анализа данных.

    По умолчанию конструктор открывается для первой модели, которая была добавлена в структуру. В данном случае TM_Decision_Tree.

  2. Используйте кнопки с изображением лупы, чтобы настроить размер отображения дерева.

    По умолчанию средство просмотра деревьев (Майкрософт) отображает только первые три уровня дерева. Если дерево содержит менее трех уровней, средство просмотра отображает только существующие уровни. Дополнительные уровни можно просмотреть с помощью ползунка "Показать уровень " или списка расширений по умолчанию .

  3. Уровень слайд-шоу на четвертую панель.

  4. Измените значение фона на 1.

    Изменив параметр Background, вы можете быстро увидеть количество случаев на каждом узле, которые имеют целевое значение 1 для [Bike Buyer]. Помните, что в этом конкретном сценарии каждый случай представляет клиента. Значение указывает, что клиент ранее приобрел велосипед; значение 10 указывает, что клиент не приобрел велосипед. Чем темнее заливка узла, тем больше процент случаев в узле, имеющих целевое значение.

  5. Поместите курсор на узел с меткой "Все". Подсказка будет отображать следующие сведения:

    • Общее количество случаев

    • Число людей, не покупающих велосипеды

    • Количество случаев покупателей велосипедов

    • Количество случаев с отсутствующими значениями для [Покупатель велосипедов]

    В качестве альтернативы, поместите курсор на любой узел в дереве, чтобы увидеть условие, необходимое для достижения этого узла от узла, который предшествует ему. Эти же сведения также можно просмотреть в Легенда по майнингу.

  6. Щелкните узел для возраст >=34 и < 41. Гистограмма отображается как тонкая горизонтальная полоса через узел и представляет распределение клиентов в этом возрастном диапазоне, которые ранее купили (розовый) и не купили (синий) велосипед. Обозреватель показывает нам, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или без автомобиля скорее всего купят велосипед. Продвинувшись на шаг вперед, мы обнаруживаем, что вероятность покупки велосипеда увеличивается, если клиент действительно возрастом от 38 до 40 лет.

Так как вы включили drillthrough-доступ при создании структуры и модели, вы можете получить подробные сведения из случаев модели и структуры интеллектуального анализа данных, включая такие столбцы, которые изначально не вошли в модель интеллектуального анализа данных (например, emailAddress, FirstName).

Дополнительные сведения см. в разделе «Запросы детализации» (интеллектуальный анализ данных).

Перейти к данным по делам

  1. Щелкните правой кнопкой мыши узел, и выберите «Просмотр подробностей», затем «Только столбцы модели».

    Сведения о каждом учебном случае отображаются в формате электронной таблицы. Эти сведения исходят из представления vTargetMail, выбранного в качестве таблицы вариантов при создании структуры интеллектуального анализа данных.

  2. Щелкните правой кнопкой мыши узел и выберите "Детализация" , а затем " Модель" и "Структура столбцов".

    Та же электронная таблица отображается со столбцами структуры, добавленными в конец.

Вкладка "Сеть зависимостей"

На вкладке "Сеть зависимостей" отображаются связи между атрибутами, которые способствуют прогнозной способности модели интеллектуального анализа данных. Средство просмотра зависимостей подтверждает наши выводы о том, что возраст и регион являются важными факторами прогнозирования вероятности покупки велосипедов.

Изучение модели на вкладке "Сеть зависимостей"
  1. Щелкните узел Bike Buyer, чтобы определить его зависимости.

    Центральный узел для сети зависимостей Bike Buyer представляет предсказуемый атрибут в модели интеллектуального анализа данных. Граф выделяет все подключенные узлы, которые влияют на прогнозируемый атрибут.

  2. Настройте ползунок "Все ссылки" , чтобы определить наиболее влиятельный атрибут.

    При перемещении ползунка атрибуты, которые оказывают только слабый эффект на столбец [Bike Buyer], удаляются из графика. Изменив ползунок, вы можете обнаружить, что возраст и регион являются самыми большими факторами в прогнозировании того, является ли кто-то покупателем велосипеда.

Ознакомьтесь с этими разделами, чтобы изучить данные с помощью других типов моделей.

Следующая задача на занятии

Изучение модели кластеризации (учебник по интеллектуальному анализу данных уровня "Базовый")

См. также

Задачи просмотрщика моделей анализа данных и инструкции
Вкладка "Дерево решений" (Просмотр моделей данных)
Вкладка "Сетевые зависимости" (Просмотрщик моделей интеллектуального анализа)
Просмотр модели с помощью средства просмотра деревьев Майкрософт