Поделиться через


Изучение моделей прямой почтовой рассылки (учебник по интеллектуальному анализу данных)

После обработки моделей в проекте они доступны для просмотра на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных. Для изучения отдельных моделей в структуре интеллектуального анализа можно использовать список Модель интеллектуального анализа данных, расположенный в верхней части этой вкладки.

Следующие разделы посвящены исследованию моделей интеллектуального анализа данных с помощью средств просмотра.

  • Модель дерева принятия решений (Microsoft)
  • Модель кластеризации (Microsoft)
  • Модель упрощенного алгоритма Байеса (Microsoft)

Модель дерева принятия решений (Microsoft)

При переходе на вкладку Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных в учебном проекте по Adventure Works DM открывается модель интеллектуального анализа данных для прямой почтовой рассылке, являющаяся первой моделью в структуре. Различные алгоритмы, используемые для создания модели в службах Analysis Services, возвращают отличные друг от друга типы результатов. Таким образом, в службах Analysis Services предоставлено отдельное средство просмотра для каждого алгоритма. При просмотре модель интеллектуального анализа данных отображается на вкладке Средство просмотра моделей интеллектуального анализа данных с использованием соответствующего средства просмотра для данной модели. В данном случае (для модели дерева принятия решений) используется средство просмотра деревьев Microsoft. Это средство содержит две вкладки, Дерево решений и Сеть зависимостей.

Дерево решений

На вкладке Дерево решений можно изучать все древовидные модели, формирующие модель интеллектуального анализа данных. Поскольку модель прямой почтовой рассылки для проекта этого учебного проекта содержит только один прогнозируемый атрибут, «Покупатель велосипеда», для просмотра доступно только одно дерево. При наличии нескольких деревьев нужное можно выбрать в поле Дерево.

По умолчанию в средстве просмотра деревьев Microsoft отображаются только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Увеличить число отображаемых уровней можно с помощью ползунка Отображение уровня или списка Расширение по умолчанию. Дополнительные сведения о настройке этого средства просмотра см. в разделе Просмотр модели интеллектуального анализа данных с помощью средства просмотра деревьев (Microsoft).

Изменение дерева

  1. Переместите ползунок Отображение уровня на значение 5.

  2. Задайте в списке Окружение значение 1.

    Изменив параметр Окружение, можно быстро просмотреть число вхождений элемента «Покупатель велосипеда», значение которого равно 1, в каждом из узлов. Чем сильнее затемнение узла, тем больше вхождений он содержит.

В каждом узле дерева решений отображаются следующие сведения.

  • Условие, необходимое для перехода на данный узел из предшествующего узла. Чтобы просмотреть полный путь к узлу, следует обратиться к элементу Обозначения интеллектуального анализа данных либо навести указатель мыши на нужный узел, чтобы вывести всплывающую подсказку.
  • Гистограмма, описывающая распределение вероятностей состояния прогнозируемого столбца, упорядоченное по распространенности. Количество отображаемых в гистограмме состояний регулируется элементом управления Гистограммы.
  • Концентрация вхождений, если состояние прогнозируемого атрибута задано в элементе управления Окружение.

Чтобы просмотреть учебные вхождения, которые поддерживаются каждым узлом, щелкните узел правой кнопкой мыши и выберите команду Детализация.

Сеть зависимостей

На вкладке Сеть зависимостей отображаются связи между атрибутами, образующими прогнозную часть модели интеллектуального анализа данных.

Центральный узел сети зависимостей «Покупатель велосипеда» отражает прогнозируемый атрибут модели интеллектуального анализа данных. Расположенные рядом узлы отображают атрибуты, влияющие на итоговое значение этого прогнозируемого атрибута. Управлять отображаемой прочностью связей можно с помощью ползунка, расположенного в левой части вкладки. При его перемещении вниз отображаются только наиболее прочные связи.

Чтобы просмотреть, для каких узлов данный узел является прогнозируемым или, наоборот, какие узлы выступают в качестве прогнозируемых узлов для данного узла, щелкните соответствующий узел в сети и просмотрите цветовые условные обозначения, расположенную в нижней части вкладки.

Модель кластеризации (Microsoft)

Выберите модель TM_Clustering в списке Модель интеллектуального анализа данных в верхней части вкладки Средство просмотра моделей интеллектуального анализа данных. Средство просмотра для этой модели (средство просмотра кластеров Microsoft) содержит четыре вкладки: Диаграмма кластера, Профили кластера, Характеристики кластера и Сравнения кластеров. По умолчанию в программе просмотра при открытии отображается вкладка Диаграмма кластера.

Дополнительные сведения о настройке средства просмотра кластеров Microsoft см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеров (Microsoft).

Диаграмма кластера

На вкладке Диаграмма кластера можно анализировать связи между кластерами, найденные алгоритмом. Линии между кластерами показывают «близость», их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере. Переменную и состояние можно выбирать в полях Переменная заливки и Состояние, расположенных в верхней части узла. По умолчанию используется переменная «Заполнение», однако в роли такой переменной может выступать любой атрибут модели, что позволяет выяснить, какие кластеры содержат члены с требуемыми атрибутами. С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями.

Например, для параметра Переменная заливки задайте значение Покупатель велосипеда, а для параметра Состояние — значение 1. Как видно, кластер 5 содержит наивысшую концентрацию покупателей велосипедов, а самая сильная связь существует между кластерами 4 и 7.

Профили кластера

Вкладка Профили кластера содержит общие сведения о модели TM_Clustering. Как видно в средстве просмотра, вкладка Профили кластера содержит столбец для каждого кластера в модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной показано цветным столбцом, при этом максимальное количество видимых столбцов задается в списке Столбцы гистограммы. Непрерывные атрибуты отображаются в диаграмме ромбов, отражающей среднее и среднеквадратичное отклонение в каждом из кластеров.

Характеристики кластера

На вкладке Характеристики кластера можно просмотреть подробные сведения о кластере. Например, если в списке Кластер в данном учебном сценарии выбран кластер 5, представленные в этом кластере покупатели велосипедов, очевидно, имеют следующие характеристики: расстояние от дома до работы 0—1,5 километров; машина отсутствует; женаты или замужем.

Сравнения кластеров

На вкладке Сравнения кластеров можно выявить, какие характеристики отличают кластеры друг от друга. Если выбрать в полях Кластер 1 и Кластер 2 два кластера, в средстве просмотра будут показаны различия между этими кластерами, причем различающиеся атрибуты будут приведены в порядке, определяемом степенью расхождения их значений.

Например, сравним кластеры 5 и 7 из модели TM_Clustering. Кластер 5 содержит наивысшую, а кластер 7 — наименьшую концентрацию покупателей велосипедов. Клиенты в кластере 7 в большинстве своем из Северной Америки и более молодые (в возрасте 23—31 год), тогда как в кластере 5 клиенты в основном из Европы и у них расстояние до работы составляет менее 1,5 километра.

Модель упрощенного алгоритма Байеса (Microsoft)

Выберите модель TM_NaiveBayes в списке Модель интеллектуального анализа данных в верхней части вкладки Средство просмотра моделей интеллектуального анализа данных. Средство просмотра для этой модели — средство просмотра модели упрощенного алгоритма Байеса (Microsoft) — содержит четыре вкладки: Сеть зависимостей, Профили атрибута, Характеристики атрибута и Сравнение атрибутов.

Дополнительные сведения о настройке средства просмотра модели упрощенного алгоритма Байеса Microsoft см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра упрощенных алгоритмов Байеса (Microsoft).

Сеть зависимостей

Вкладка Сеть зависимостей имеет ту же функциональность, что и вкладка Сеть зависимостей средства просмотра дерева Microsoft. Каждый из узлов в средстве просмотра отображает атрибут, а линии между узлами представляют связи. В средстве просмотра показаны все атрибуты, влияющие на состояние прогнозируемого атрибута «Покупатель велосипеда».

По мере перемещения ползунка вниз остаются только атрибуты, оказывающие наибольшее влияние на столбец «Покупатель велосипеда». Перемещая ползунок, можно узнать, что число имеющихся в распоряжении машин является фактором, оказывающим самое сильное влияние на принятие решения о покупке велосипеда.

Профили атрибута

На вкладке Профили атрибута показано, как различные состояния входных атрибутов влияют на результат прогнозируемого атрибута.

Убедитесь, что в поле Прогнозируемый выбрано Покупатель велосипеда. Атрибуты, влияющие на состояние данного прогнозируемого атрибута, перечисляются вместе со значениями каждого состояния входных атрибутов и их распределениями по каждому состоянию прогнозируемого атрибута.

Характеристики атрибута

На вкладке Характеристики атрибута можно выбрать атрибут и значение, чтобы узнать частоту появления значений других атрибутов в вхождениях выбранного значения.

Убедитесь, что в списке Атрибут выбрано значение Покупатель велосипеда, а затем выберите в списке Значение значение 1. Как видно в средстве просмотра, покупают больше всего велосипедов люди, проживающие в Северной Америке, у которых расстояние до работы не превышает 1,5 км.

Сравнение атрибутов

На вкладке Сравнение атрибутов можно изучать связь между двумя дискретными значениями выбранного прогнозируемого атрибута и другими значениями атрибутов. Поскольку в модели TM_NaiveBayes предусмотрено только два состояния, 1 и 0, не требуется вносить изменения в средство просмотра.

В средстве просмотра показано, что велосипеды, как правило, покупают люди, не имеющие в распоряжении машин, и наоборот — люди, имеющие две машины, большей частью велосипеды не покупают.

Следующая задача занятия

Проверка точности моделей интеллектуального анализа данных (учебник по интеллектуальному анализу данных)