Поделиться через


Изучение модели кластеризации (учебник по интеллектуальному анализу данных — начальный уровень)

 

Применимо к: SQL Server 2016 Preview

Microsoft Алгоритм кластеризации группировку вариантов в кластеры с похожими характеристиками. Такие группирования полезно использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

Средство просмотра кластеров Microsoft содержит следующие вкладки для изучения кластерных моделей интеллектуального анализа данных:

Диаграмма кластеров

Профили кластеров

Характеристики кластеров

Сравнения кластеров

Вкладка «Диаграмма кластеров»

Вкладка «Диаграмма кластеров» содержит все кластеры, которые имеются в модели интеллектуального анализа данных. Линии между кластерами показывают «близость», а их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере.

Изучение модели на вкладке «Диаграмма кластеров»

  1. Используйте модель интеллектуального анализа данных списка в верхней части средство просмотра модели интеллектуального анализа для перехода к TM_Clustering модели.

  2. В просмотра выберите средство просмотра кластеров Microsoft.

  3. В Переменная заливки выберите Bike Buyer.

    Переменной по умолчанию является Заполнение, но это можно изменить на любой атрибут модели, для обнаружения, какие кластеры содержат члены с атрибутами, которые вы хотите.

  4. Выберите 1 в состояние поле, чтобы изучить те варианты, где была приобретена велосипед.

    Плотность описывает плотность пары состояний атрибута, выбранного в переменной заливки и состояние. В этом примере он говорит нам, что clusterwith самой темной заливкой имеет наибольший процент покупателей велосипедов.

  5. Наведите указатель мыши на кластер с самой темной заливкой.

    Всплывающая подсказка отображает процент вариантов с атрибутом Bike Buyer = 1.

  6. Выберите кластер с максимальной плотностью, щелкните кластер правой кнопкой мыши, выберите Переименовать кластер и тип покупателей велосипедов для последующей идентификации. Нажмите кнопку ОК.

  7. Найдите кластер с самой светлой заливкой (и с наименьшей плотностью). Щелкните кластер правой кнопкой мыши, выберите Переименовать кластер и тип мало покупателей велосипедов. Нажмите кнопку ОК.

  8. Щелкните покупателей велосипедов кластера и перетащите его в область панели, что даст видны его соединения с другими кластерами.

    При выборе кластера выделяются линии, соединяющие его с другими кластерами, что позволяет легко определить связи данного кластера. Если кластер не выделен, по цвету линий можно определить, насколько тесная связь между кластерами на диаграмме. Светлая заливка или отсутствие заливки означает, что кластеры не очень схожи.

  9. С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями. Отделу маркетинга компании Компания Adventure Works Cycles может потребоваться объединить похожие кластеры при определении наилучшего способа прямой почтовой рассылки.

В начало

Вкладка «Профили кластера»

Профили кластера содержится общий обзор TM_Clustering модели. Профили кластера Вкладка содержит столбец для каждого кластера в модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной показано цветным столбцом, максимальное количество видимых столбцов задается в Столбцы гистограммы списка. Непрерывные атрибуты отображаются в ромбовидной диаграмме, отражающей среднее и стандартное отклонение в каждом из кластеров.

Изучение модели на вкладке «Профили кластера»

  1. Задайте гистограммы полосы 5.

    В нашей модели значение 5 — это максимальное количество состояний для любой одной переменной.

  2. Если обозначения интеллектуального анализа данных блокирует отображение атрибут профилей, переместите его в сторону.

  3. Выберите покупателей велосипедов столбца и перетащите его вправо от Заполнение столбца.

  4. Выберите мало покупателей велосипедов столбца и перетащите его вправо от покупателей велосипедов столбца.

  5. Щелкните покупателей велосипедов столбца.

    Переменные столбец сортируется в порядке важности для этого кластера. Просмотрите столбец и проанализируйте характеристики кластера «Много покупателей велосипедов». Например, вероятно, что они живут недалеко от работы.

  6. Дважды щелкните возраст ячейку покупателей велосипедов столбца.

    Обозначения интеллектуального анализа данных появится более детальное представление, где можно увидеть диапазон возрастной этих клиентов, а также средний возраст.

  7. Щелкните правой кнопкой мыши мало покупателей велосипедов столбца и выберите Скрыть столбец.

В начало

Вкладка «Характеристики кластера»

С Характеристики кластера вкладке можно просмотреть более подробно характеристики, входящие в состав кластера. Вместо сравнения характеристик всех кластеров (как на вкладке «Профили кластера») кластеры можно анализировать по одному. Например, если выбрать покупателей велосипедов из кластера списка, можно просмотреть характеристики покупателей данного кластера. Хотя данное представление отличается от средства просмотра профилей кластера, результаты остаются такими же.

Примечание


Если не задать начальное значение для holdoutseed, результаты будут отличаться каждый раз при обработке модели. Дополнительные сведения см. в разделе элемент HoldoutSeed

В начало

Вкладка «Сравнения кластеров»

С помощью сравнения кластеров вкладке можно просмотреть характеристики отличают кластеры друг от друга. После выбора двух кластеров, один из Кластер 1 и один из кластера 2 списка, средство просмотра вычислит разницу между кластерами и отображает список атрибутов, отличающих кластеры наиболее.

Изучение модели на вкладке «Сравнения кластеров»

  1. В Кластер 1 выберите покупателей велосипедов.

  2. В кластера 2 выберите мало покупателей велосипедов.

  3. Щелкните переменных для сортировки по алфавиту.

    Некоторые из более существенных различий между покупателями в мало покупателей велосипедов и покупателей велосипедов кластеров включают возраст, владение автомобилем, количество детей и регион.

Связанные задачи

В следующих разделах для изучения модели интеллектуального анализа данных.

Следующая задача занятия

Изучение модели упрощенного алгоритма Байеса ( Учебник по основам интеллектуального анализа данных )

Предыдущая задача занятия

Изучение модели дерева принятия решений и #40; Учебник по основам интеллектуального анализа данных )

См. также:

Просмотр модели с помощью средства просмотра кластеров (Майкрософт)
Вкладка "Сравнения кластеров" (средство просмотра моделей интеллектуального анализа данных)
Вкладка "Профили кластеров" (средство просмотра моделей интеллектуального анализа данных)
Вкладка "Характеристики кластеров" (средство просмотра моделей интеллектуального анализа данных)
Вкладка "Диаграмма кластеров" (средство просмотра моделей интеллектуального анализа данных)