Поделиться через


Алгоритм кластеризации последовательностей (Microsoft)

Алгоритм кластеризации последовательностей (Microsoft) представляет собой алгоритм анализа последовательностей, обеспечиваемый службами Microsoft SQL Server 2005 Analysis Services (SSAS). Данный алгоритм можно использовать для исследования данных, содержащих события, которые могут быть связаны следующими путями, иначе именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей. Данные последовательности могут принимать различные формы, включая:

  • Данные, описывающие переходы пользователя в пределах веб-узла.
  • Данные, которые описывают порядок, в котором клиент добавляет в корзинку товары, выбранные в Интернет-магазине.

Алгоритм похож на Алгоритм кластеризации (Microsoft). Однако вместо поиска кластеров вариантов, содержащих похожие атрибуты, алгоритм кластеризации последовательностей (Microsoft) находит кластеры вариантов, содержащие похожие пути в последовательности.

Модель интеллектуального анализа данных, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Данные описания можно использовать для прогнозирования следующего вероятного шага в новой последовательности. При создании кластера записей алгоритм также может учитывать такие столбцы в данных, которые не связаны непосредственно с последовательностями. Поскольку алгоритм включает несвязанные столбцы, можно использовать итоговую модель для определения связей, существующих между данными, включенными в последовательность, и данными, не включенными в последовательность.

Пример

Веб-узел компании Adventure Works собирает сведения о страницах, посещаемых пользователями узла, и о порядке посещения таких страниц. Поскольку компания предоставляет возможность заказа через сеть Интернет, клиентам необходимо зарегистрироваться на узле. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Применив в отношении таких данных алгоритм кластеризации последовательностей (Microsoft), компания может найти группы или кластеры клиентов, для которых характерны похожие шаблоны или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-узла, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Для определения кластеров и их последовательностей алгоритм использует метод кластеризации, называемый методом максимизации ожидания (EM). Это означает, что для определения вероятности существования точки данных в кластере алгоритм использует вероятностный метод. Описание использования данного метода кластеризации алгоритмом кластеризации (Microsoft) см. в разделе Алгоритм кластеризации (Microsoft).

Один из входных столбцов, используемых алгоритмом кластеризации последовательностей (Microsoft), является вложенной таблицей, содержащей данные последовательности. Такие данные представляют собой ряд преобразований состояний конкретных вариантов в наборе данных, например приобретенные товары или щелчки на веб-узле. Чтобы определить, какие столбцы последовательности следует считать входными столбцами для кластеризации, алгоритм измеряет различия или расстояния между всеми возможными последовательностями в наборе данных. После измерения таких расстояний алгоритм сможет использовать столбец последовательности в качестве ввода для EM-метода кластеризации.

Использование алгоритма

Для модели кластеризации последовательностей необходим ключ, который идентифицирует записи, и вложенная таблица, в которой содержится связанный с последовательностью столбец, например идентификатор веб-страницы, который идентифицирует события в последовательности. Для каждой последовательности допускается только один связанный с последовательностью столбец, а в каждой модели допускается только один тип последовательности. Чтобы создать модель в сценарии в примере, приведенном ранее в данном подразделе, необходим источник данных, в котором содержится две таблицы. В первой таблице будут содержаться заказы, а во второй таблице — последовательность, в которой заказы помещаются в корзинку для покупок.

В следующей таблице перечислены конкретные типы содержимого входных столбцов, типы содержимого прогнозируемых столбцов и флаги моделирования, поддерживаемые алгоритмом кластеризации последовательностей (Microsoft).

Типы содержимого входных столбцов

Непрерывные, циклические, дискретные, дискретизированные, ключевые, ключевые последовательные, табличные и упорядоченные.

Типы содержимого прогнозируемых столбцов

Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные

Флаги моделирования

MODEL_EXISTENCE_ONLY и NOT NULL

Все алгоритмы Microsoft поддерживают общий набор функций. Однако алгоритм кластеризации последовательностей (Microsoft) поддерживает дополнительные функции, перечисленные в следующей таблице.

Cluster

PredictHistogram

ClusterProbability

PredictNodeId

IsDescendant

PredictProbability

IsInNode

PredictSequence

PredictAdjustedProbability

PredictStdev

PredictAssociation

PredictSupport

PredictCaseLikelihood

PredictVariance

Список функций, общих для всех алгоритмов Microsoft, см. в разделе Алгоритмы интеллектуального анализа данных. Дополнительные сведения об использовании этих функций см. в разделе Ссылка на функцию расширений интеллектуального анализа данных.

Алгоритм кластеризации последовательностей (Microsoft) не поддерживает использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.

Алгоритм кластеризации последовательностей (Microsoft) поддерживает несколько параметров, которые влияют на производительность и точность итоговой модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.

Параметр Описание

CLUSTER_COUNT

Указывает примерное количество кластеров, строящихся данным алгоритмом. Если это примерное количество кластеров не может быть построено из данных, то алгоритм строит столько кластеров, сколько возможно. Установка значения параметра CLUSTER_COUNT равным 0 приводит к тому, что алгоритм начинает использовать эвристический подход для определения числа строящихся кластеров.

Значение по умолчанию равно 10.

MINIMUM_SUPPORT

Указывает минимальное число вариантов в каждом кластере.

Значение по умолчанию равно 10.

MAXIMUM_SEQUENCE_STATES

Указывает максимальное количество состояний, которые последовательность может иметь. Установка данного значения равным числу, большему 100, может привести к тому, что алгоритм создаст модель, не предоставляющую достоверных данных.

Значение по умолчанию равно 64.

MAXIMUM_STATES

Указывает максимальное количество состояний для атрибута не из последовательности, поддерживаемого алгоритмом. Если количество состояний атрибута не из последовательности превышает максимально возможное, то алгоритм использует наиболее популярные состояния атрибута и считает остальные состояния отсутствующими.

Значение по умолчанию равно 100.

См. также

Основные понятия

Алгоритмы интеллектуального анализа данных
Мастер интеллектуального анализа данных
Использование средств интеллектуального анализа данных
Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеризации последовательностей (Microsoft)

Другие ресурсы

CREATE MINING MODEL (расширения интеллектуального анализа данных)

Справка и поддержка

Получение помощи по SQL Server 2005