Алгоритм кластеризации последовательностей (Майкрософт)

Статья
07/30/2013

Алгоритм кластеризации последовательностей (Майкрософт) представляет собой алгоритм анализа последовательностей, предоставляемый службами Microsoft SQL Server Analysis Services. Данный алгоритм можно использовать для просмотра данных, содержащих события, которые могут быть связаны следующими путями, иначе именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей. Ниже приведено несколько примеров данных, содержащих последовательности, которые могут быть использованы для интеллектуального анализа данных и получения сведений о стандартных проблемах или бизнес-сценариях.

Щелкните пути, которые создаются, когда пользователи просматривают веб-сайт.
Журналы, в которых приведены списки событий, предшествовавших инциденту, такие как сбой жесткого диска или взаимоблокировка сервера.
Записи транзакций, описывающие порядок, в котором клиент добавляет в корзину товары, выбранные в интернет-магазине.
Записи, следящие за взаимодействием с клиентом (или пациентом) во времени для прогнозирования отмены услуг или других нежелательных итогов.

Этот алгоритм во многом напоминает алгоритм кластеризации (Майкрософт). Однако вместо поиска кластеров вариантов, содержащих похожие атрибуты, алгоритм кластеризации последовательностей (Майкрософт) находит кластеры вариантов, содержащие похожие пути в последовательности.

Пример

Веб-сайт Компания Adventure Works Cycles собирает сведения о страницах, посещаемых пользователями сайта, и о порядке посещения таких страниц. Поскольку компания предоставляет возможность заказа по сети, клиентам необходимо зарегистрироваться на сайте. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Применив в отношении таких данных алгоритм кластеризации последовательностей (Майкрософт), компания может найти группы или кластеры клиентов, для которых характерны похожие закономерности или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-сайта, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Алгоритм кластеризации последовательностей (Майкрософт) — это гибридный алгоритм, сочетающий методы с анализом марковских цепей для определения кластеров и их последовательностей. Одной из особенностей алгоритма кластеризации последовательностей (Майкрософт) является использование данных последовательностей. Такие данные обычно представляют ряд событий или переходов между состояниями в наборе данных, например ряд приобретений продуктов или щелчков мышью на веб-узле для конкретного пользователя. Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных для EM-метода кластеризации.

Подробное описание этой реализации см. в разделе Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Данные, необходимые для моделей кластеризации последовательностей

При подготовке данных, предназначенных для использования в обучении модели кластеризации последовательностей, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных, и то, как эти данные используются.

К модели кластеризации последовательностей предъявляются следующие требования.

Одиночный столбец key Модели кластеризации последовательностей требуется ключ по которому идентифицируются записи.
Столбец последовательности Для данных последовательности модель должна иметь вложенную таблицу, содержащую столбец идентификатора последовательности. Идентификатор последовательности может иметь любой подлежащий сортировке тип данных. Например, можно использовать идентификатор веб-страницы, целое число или текстовую строку с условием, что столбец идентифицирует события в последовательности. Для каждой последовательности допускается только один идентификатор последовательности, а в каждой модели допускается только один тип последовательности.
Необязательные атрибуты, не относящиеся к последовательности алгоритм поддерживает добавление других атрибутов, не связанных с последовательностью. Эти атрибуты могут включать вложенные столбцы.

Например, в случае с указанным выше веб-сайтом Компания Adventure Works Cycles модель кластеризации последовательности может включать в качестве не связанных с последовательностью атрибутов такие сведения о заказе, как таблица вариантов и демографические данные клиента. Кроме того, она будет включать вложенную таблицу, содержащую последовательность просмотра веб-сайта клиентом или покупки в корзине в качестве данных последовательности.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями кластеризации последовательности, см. в разделе «Требования» статьи Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Просмотр модели кластеризации последовательности

Модель интеллектуального анализа данных, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Чтобы исследовать модель, можно использовать Средство просмотра кластеризации последовательностей (Майкрософт). При просмотре модели кластеризации последовательности службы Analysis Services отображают кластеры, содержащие несколько переходов. Можно также просмотреть соответствующие статистические данные. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра кластеризации последовательностей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое, сохраняемое для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и подробные сведения о переходах. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора шаблонов. Можно использовать описания наиболее распространенных последовательностей в данных для прогноза следующего наиболее вероятного шага в новой последовательности. Но поскольку алгоритм включает другие столбцы, результирующую модель можно использовать для определения связи между данными, включенными в последовательность, и данными, не включенными в нее. Например, если к модели добавляются демографические данные, можно сделать прогноз для конкретной группы клиентов. Прогнозирующие запросы можно настраивать для того, чтобы они возвращали переменное число прогнозов или описательные статистические данные.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных. Примеры использования запросов с моделью кластеризации последовательности см. в разделе Примеры запросов к модели кластеризации последовательностей.

Замечания

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.