Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Теперь, когда вы создали кластеризацию последовательностей с помощью модели региона, его можно просмотреть с помощью средства просмотра кластеризации последовательностей Майкрософт на вкладке "Средство просмотра моделей интеллектуального анализа данных" конструктора интеллектуального анализа данных. Средство просмотра кластеров последовательностей Майкрософт содержит пять вкладок: схемакластера, профили кластера, характеристики кластера, кластерdiscrimination и переходы состояния. Дополнительные сведения об использовании этого средства просмотра см. в разделе "Обзор модели" с помощью средства просмотра кластера последовательностей Майкрософт.
Вкладка "Схема кластера"
На вкладке "Схема кластера" отображаются кластеры, обнаруженные алгоритмом в базе данных. Макет на схеме представляет связи кластеров с аналогичными кластерами, сгруппированных по аналогии. По умолчанию оттенок каждого узла представляет плотность всех случаев в кластере: темнее оттенк узла, чем больше случаев он содержит. Значение заливки узлов можно изменить таким образом, чтобы он представлял поддержку в каждом кластере для атрибута и состояния.
Вы также можете переименовать кластеры, чтобы упростить идентификацию и работу с целевыми кластерами. В этом руководстве вы переименовываете кластер с наибольшим процентом клиентов из Тихоокеанского региона и кластером, который имеет наиболее распространенные варианты.
Замечание
Случаи, назначенные определенным кластерам, могут изменяться при повторной обработке модели в зависимости от данных и параметров модели. Кроме того, если вы переименуете кластеры, названия будут утрачены во время повторной обработки модели анализа данных.
Изменение атрибута, используемого для выделения кластеров
В списке Переменная затенения выберите Модель.
Выберите «Велосипедная кепка» в списке «Состояния».
Схема обновляется для отображения концентрации выбранного продукта в каждом из кластеров. Кластер, имеющий самую тёмную заливку, содержит самую высокую плотность велосипедных кепок. Можно изменить переменную заливки, чтобы использовать любое состояние любого входного столбца.
В списке переменных затенения выберите Население.
При изменении переменной затенения на население диаграмма обновляется, чтобы сравнить кластеры по размеру. Кластер с самым темным заливом содержит больше случаев, чем другие кластеры.
Переименование узлов в модели
Измените переменную
Regionзаливки на и задайте для состоянияPacific.Выделите самый темный узел в графе.
Щелкните этот кластер правой кнопкой мыши и выберите "Переименовать кластер".
Введите имяТихоокеанского кластера.
Измените значение Переменной заливки на Население.
На обновленном графе найдите самый темный кластер, который должен быть самым большим кластером. Если вы не можете определить заливку, какой кластер является самым большим, приостановите указатель мыши над каждым кластером и просмотрите подсказку, а затем выберите кластер, содержащий большинство случаев.
Щелкните этот кластер правой кнопкой мыши и выберите "Переименовать кластер". Введите новое имя,
Largest Cluster.
Вы можете выполнить детализацию с узла, представляющего кластер, чтобы просмотреть сведения о случаях, которые находятся в каждом кластере. Это может быть полезно, если вы хотите принять меры по результатам анализа, например отправка электронной почты клиенту. Вы также можете просмотреть другие атрибуты вариантов, включенных в структуру, но не использовались в модели, например Region и IncomeGroup. Дополнительные сведения о детализации из моделей интеллектуального анализа данных в базовые варианты см. в разделе "Запросы детализации" (интеллектуальный анализ данных).
Чтобы углубиться в детали на диаграмме кластера
Щелкните правой кнопкой мыши, выберите "Детализация
Pacific Cluster" и выберите столбцы "Модель" и "Структура".Откроется диалоговое окно Drill Through. Столбцы, которые не используются в модели, но доступны для запроса, префиксируются структурой.
Вы можете увидеть, что этот кластер содержит в основном клиентов из Тихоокеанского региона, с несколькими клиентами из других регионов.
Щелкните значок "плюс" во вложенном столбце "Assoc Seq Line Items", чтобы просмотреть последовательность элементов в определенном заказе клиента.
Закройте диалоговое окно Drill Through.
Замечание
Кнопка Запуск позволяет заново запросить данные; однако повторный запрос не изменяет отображаемые данные, если модель не была динамически обновлена в фоновом режиме другим процессом.
Вкладка "Профили кластера"
На вкладке "Профили кластера" отображаются последовательности, которые находятся в каждом кластере. Кластеры перечислены в отдельных столбцах справа от столбца "Состояния ".
В средстве просмотра строка модели описывает общее распределение элементов в кластере, а строка Model.samples содержит последовательности элементов. Каждая строка последовательностей цветов в каждой ячейке строки Model.samples представляет поведение случайно выбранного пользователя в кластере.
Каждый цвет в отдельной гистограмме последовательности представляет модель продукта. Легенда по добыче показывает последовательности продуктов с помощью цветовой кодировки и названий моделей продуктов. Если вы добавили в модель другие столбцы для кластеризации, например "Регион" или "Группа доходов", средство просмотра будет содержать дополнительную строку для каждого столбца, отображающего распределение этих значений в каждом кластере.
Просмотр последовательностей, наиболее распространенных в кластере
Щелкните правой кнопкой мыши строку модели в столбце кластера
Largest Clusterи выберите "Показать условные обозначения".Столбец Color содержит затеняемую полосу, которая указывает частоту элементов, найденных в последовательностях. Каждый элемент представлен другим цветом. В столбце "Значение " перечислены имена моделей продуктов для каждого цвета. Столбец распределения указывает процент случаев, содержащих этот элемент в последовательности.
Закройте Легенда Майнинга.
Щелкните правой кнопкой мыши строку Model.samples в столбце с заголовком Population и выберите Показать легенду.
Сканирование списка последовательностей в общей модели
.Легенда майнинга сначала перечисляет наиболее распространенные последовательности, поэтому вы увидите, что Горная шина является первым элементом во многих последовательностях. Это означает, что клиент, скорее всего, положить горную шину трубы в корзину покупок в первую очередь.
Для перехода к случаям в средстве просмотра кластера
Прокрутите вниз в области атрибутов, пока не найдете строку для атрибута
Region.Строка содержит гистограмму для каждого кластера в модели, а также одну дополнительную гистограмму для популяции, то есть весь набор вариантов, используемых в модели. Гистограмма представляет собой гистограмму с различными цветами, где каждый цвет представляет атрибут, а размер цветного раздела для этого атрибута представляет процент вариантов с этим атрибутом.
Сравните гистограммы для переименованных
Pacific Clusterкластеров иLargest Cluster. Каждый кластер отображается в другом столбце.Оба выглядят как сплошные цвета, но на самом деле они различаются.
В строке
Regionнаведите указатель мыши на цветную гистограммуLargest Cluster.Подсказка отображает значения, отображающие фактические проценты случаев из каждого региона.
Щелкните правой кнопкой мыши цветную гистограмму в строке
RegionдляPacific Cluster, выберите Детализация, затем выберите Только столбцы модели.Переместите полосу прокрутки, чтобы просмотреть всех клиентов в этом кластере.
Снова, при детальном рассмотрении видно, что кластер содержит в основном заказы из Тихоокеанского региона, но также несколько из регионов Северной Америки и Европы.
Закройте диалоговое окно детализации .
Вкладка "Характеристики кластера"
Вкладка "Характеристики кластера " содержит сводку переходов между состояниями в кластере, отображая полосы, которые визуально представляют важность значения атрибута для выбранного кластера. Столбец "Переменные" указывает, что модель считает важным для выбранного кластера или совокупности: либо определенное значение, либо связь между значениями, что называется переходом. Столбец "Значения" содержит дополнительные сведения о значении или переходе, а столбец вероятности визуально представляет вес этого атрибута или перехода.
Просмотр важных атрибутов для кластера
В раскрывающемся списке кластера выберите
Pacific Cluster.Список обновляется для отображения характеристик переименованного
Pacific Clusterкластера. В этом кластере наиболее важной характеристикой являетсяRegion.Наведите курсор мыши над заштрихованной панелью в строке
Region.Вероятность того, что значение является Тихоокеанским, очень высока. Дополнительные сведения о интерпретации этих значений см. в техническом справочнике по алгоритму кластеризации последовательностей Майкрософт.
Просмотрите список характеристик кластера, пока не найдете первую строку перехода.
Строка перехода содержит текстовый переход в столбце переменных и некоторые сочетания последовательных значений атрибутов в столбце Value . Последовательность также может содержать начальные точки и отсутствующие значения.
Например, предположим, что переход имеет значение [Start] -> Road Tire Tube. Это означает, что клиенты в этом кластере часто помещают дорожно-шинную трубку в свою корзину для покупок. Это может означать, что продукт является популярным элементом, который клиенты ищут в первую очередь, или это может указывать только на то, что продукт легко найти на сайте приобретения.
Прокрутите список, пока не найдете первый переход, который не содержит [Пуск] или отсутствует в нем.
Например, предположим, что вы найдете переход, туристическая шина, камера для туристической шины. Это означает, что клиенты в этом кластере часто покупали эти товары вместе, именно в этом порядке.
Наведите указатель мыши на затенённую полосу для этого перехода.
Вероятность этого перехода отображается в процентах.
В раскрывающемся списке кластера выберите "Население (все)".
Список атрибутов обновляется, чтобы показать характеристики всех заказов, использованных для создания модели. В этой модели интеллектуального анализа данных наиболее важной особенностью для различения кластеров является
Region, имеющее значение Северная Америка.
После просмотра этих задач вы понимаете две вещи. Во-первых, требуется много данных, чтобы получить понятное количество сочетаний. Например, последовательности с наивысшими вероятностями, скорее всего, включают состояние [Start] или Отсутствует .
Во-вторых, существует сильное влияние кластеризации на атрибуты Region, что затрудняет просмотр групп последовательностей. Поэтому вы решили создать другую модель, которая использует только последовательности и не включает столбцы для региона или дохода.
Вкладка "Дискриминация кластера"
Вкладка "Дискриминация кластера " помогает сравнить два кластера, чтобы определить, какие атрибуты отличают определенный кластер от другого кластера. Вкладка содержит четыре столбца: переменные, значения, кластер 1 и кластер 2. Вы можете выбрать любой кластер для использования в качестве кластера 1 и кластера 2.
Столбец «Переменные» указывает имя атрибута, которое может быть именем столбца или сочетанием имени столбца и слова «переход». Столбец "Значения" показывает точное значение атрибута или перехода. Затеняемые полосы в столбцах для кластера 1 и Кластера 2 указывают на силу атрибута в сравниваемых кластерах. Чем длиннее полоса, тем вероятнее кластер включает случаи с этим атрибутом.
Сравнение двух кластеров с помощью вкладки "Дискриминация кластера"
На вкладке "Дискриминация кластера" для кластера 1 выберите
Pacific Cluster.По умолчанию выборка для кластера 2 изменяется на дополнение к Тихоокеанскому кластеру.
Верхний атрибут, отличающийся
Pacific Clusterот всех остальных вариантов, является регионом. Регион является таким сильным атрибутом для кластеризации, что он скрывает другие атрибуты. Чтобы избежать этого эффекта, попробуйте сравнить несколько небольших кластеров друг с другом. При этом список атрибутов изменяется и может включать дополнительные переходы между моделями.Найдите строку перехода и поместите указатель мыши на затенённую полосу.
Элементы в столбце "Значения" могут включать как состояния, так и переходы. Заштриховка для каждого элемента указывает оценку дискриминационной способности. Чтобы узнать больше о значении различных оценок, см. раздел «Содержимое модели дата майнинга» для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).
Вкладка "Переходы состояния"
На вкладке "Переходы состояния" можно выбрать кластер и просмотреть его переходы состояния. Если выбрать население (все) из раскрывающегося списка кластера, на схеме показано распределение состояний для всей модели интеллектуального анализа данных.
Каждый узел в графе представляет состояние или возможное значение последовательностей, которые вы пытаетесь проанализировать. Цвет фона узлов представляет частоту этого состояния. Линии соединяют некоторые состояния, указывающие на переход между состояниями. Ползунок можно переместить вверх или вниз, чтобы изменить порог вероятности для переходов. Числа связаны с некоторыми узлами, указывающими вероятность этого состояния.
Чтобы исследовать связи на вкладке "Переход состояний"
На вкладке «Состояния переходов» в средстве просмотра модели данных выберите
Pacific Clusterиз списка кластеров. Убедитесь, что выбран параметр "Показать пограничные метки ".Граф обновляется, чтобы показать переходы, наиболее распространенные в этом кластере.
Щелкните любой узел, подключенный линией к другому узлу.
Граф обновляется и выделяет связанные узлы. Числовое значение рядом с строкой указывает вероятность перехода.
Переместите ползунок вверх к всем ссылкам, чтобы увеличить количество переходов, отображаемых на графике.
Выберите население (все) в кластере.
Обратите внимание, что когда вы загружаете другой кластер, график сбрасывается к параметрам отображения по умолчанию, поэтому ползунок возвращается в среднее положение.
Щелкните самый темный узел в графе, который должен быть Sport-100.
Обратите внимание, что нет линий, соединяющих этот продукт с другими продуктами.
Поднимите ползунок вверх на один шаг, чтобы увеличить количество переходов, включенных в граф. Пока не переходите в раздел Все ссылки.
Граф обновляется путем добавления нескольких дополнительных переходов к графу, но ни один из них не включает модель Sport-100.
Передвиньте ползунок до положения Все ссылки. Щелкните узел Sport-100, если он еще не выбран.
Граф обновляется, чтобы показать множество переходов, включающих продукт Sport-100. Направление стрелки в линии подключения указывает, был ли выбран элемент Sport-100 в качестве первого элемента или второго элемента в паре.
Щелкните узел для туристических шин и переместите ползунок обратно в среднее положение.
Во-первых, есть много линий перехода, соединяющих Туринг Тайр с другими продуктами, но при повышении порогового значения вероятности, менее вероятные переходы удаляются из графа, оставляя только переход Туринг Тайр > Туринг Тайр Тюб. Этот переход означает, что если клиент ставит Туринг Шину в корзину покупок, существует сильная вероятность того, что клиент будет далее положить Туринг Шина Трубка в корзину.
Средство просмотра дерева универсального содержимого
Это средство просмотра можно использовать для всех моделей независимо от алгоритма или типа модели. Средство MicrosoftGeneric Content Tree Viewer доступно в раскрывающемся списке просмотрщиков.
Дерево содержимого — это представление любой модели дата-майнинга в виде серии узлов, где каждый узел отражает усвоенные знания об обучающих данных. Узел может содержать шаблон, набор правил, кластер или определение диапазона дат, которые используют некоторые атрибуты. Точное содержимое узла отличается в зависимости от алгоритма и прогнозируемого атрибута, но общее представление содержимого совпадает.
Вы можете развернуть каждый узел, чтобы увидеть все более подробные сведения и скопировать содержимое любого узла в буфер обмена. Дополнительные сведения см. в статье "Обзор модели с помощью средства просмотра дерева универсального содержимого Майкрософт".
Просмотр сведений о модели кластеризации последовательностей с помощью универсального средства просмотра дерева содержимого
На вкладке "Средство просмотра моделей интеллектуального анализа данных " щелкните список "Просмотр " и выберите средство просмотра дерева универсального содержимого Майкрософт.
В области заголовка узла щелкните
Pacific Cluster (1).Имя этого узла содержит понятное имя, назначенное кластеру, и идентификатор базового узла. Идентификаторы узлов можно использовать для детализации дополнительных сведений в модели.
Разверните первый дочерний узел, названный Уровень последовательности для кластера 1.
Узел уровня последовательности для кластера содержит сведения о состояниях и переходах, включенных в этот кластер. Эти сведения можно использовать в столбце NODE_DISTRIBUTION для изучения последовательностей и состояний для каждого кластера или модели в течение некоторого времени.
Продолжайте развертывать узлы и просматривать сведения в области просмотра HTML.
Дополнительные сведения о содержимом модели интеллектуального анализа данных и использовании данных в приложении просмотра см. в разделе "Содержимое модели интеллектуального анализа данных" для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).
Следующая задача на занятии
См. также
Алгоритм кластеризации последовательностей Майкрософт
Примеры запросов модели кластеризации последовательностей