Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом разделе описывается содержимое модели, использующей алгоритм кластеризации последовательностей Microsoft. Описание общей и статистической терминологии, связанной с содержимым модели интеллектуального анализа данных, которая применяется ко всем типам моделей, см. в разделе "Содержимое модели интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).
Общие сведения о структуре модели кластеризации последовательностей
Модель кластеризации последовательностей имеет один родительский узел (NODE_TYPE = 1), представляющий модель и ее метаданные. Родительский узел с меткой (Все) имеет связанный узел последовательности (NODE_TYPE = 13), который перечисляет все переходы, обнаруженные в обучающих данных.
Алгоритм также создает ряд кластеров на основе переходов, найденных в данных, и любых других входных атрибутов, включенных при создании модели, таких как демографические данные клиентов и т. д. Каждый кластер (NODE_TYPE = 5) содержит собственный узел последовательности (NODE_TYPE = 13), который перечисляет только переходы, используемые при создании этого конкретного кластера. На узле последовательности можно просмотреть детали переходов отдельных состояний (NODE_TYPE = 14).
Описание переходов последовательности и состояния с примерами см. в разделе "Алгоритм кластеризации последовательностей Майкрософт".
Содержимое модели для модели кластеризации последовательностей
В этом разделе содержатся дополнительные сведения о столбцах содержимого модели интеллектуального анализа данных, которые имеют определенную релевантность для кластеризации последовательностей.
Каталог моделей
Имя базы данных, в которой хранится модель.
MODEL_NAME
Имя модели.
ИМЯ_АТРИБУТА
Всегда пусто.
NODE_NAME
Имя узла. В настоящее время имеет такое же значение, что и NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Уникальное имя узла.
ТИП_УЗЛА
Модель кластеризации последовательностей выводит следующие типы узлов:
| Идентификатор типа узла | Описание |
|---|---|
| 1 (модель) | Корневой узел для модели |
| 5 (кластер) | Содержит количество переходов в кластере, список атрибутов и статистику, описывающую значения в кластере. |
| 13 (последовательность) | Содержит список переходов, включенных в кластер. |
| 14 (переход) | Описывает последовательность событий в виде таблицы, в которой первая строка содержит начальное состояние, а все остальные строки содержат последовательные состояния вместе со статистикой поддержки и вероятности. |
NODE_GUID
Пустой.
NODE_CAPTION
Метка или заголовок, связанный с узлом для целей отображения.
При использовании модели можно переименовать заголовки кластера; Однако новое имя не сохраняется при закрытии модели.
КАРДИНАЛЬНОСТЬ_ДЕТЕЙ
Оценка количества дочерних элементов, которые имеет узел.
Корень модели Значение кратности равно количеству кластеров плюс один. Дополнительные сведения см. в разделе "Кратность".
Узлы кластера Кратность всегда составляет 1, так как каждый кластер имеет один дочерний узел, содержащий список последовательностей в кластере.
Узлы последовательности Кратность указывает количество переходов, включенных в этот кластер. Например, кардинальность узла последовательности для корневого узла модели указывает, сколько переходов найдено во всей модели.
УНИКАЛЬНОЕ_ИМЯ_РОДИТЕЛЯ
Уникальное имя узла-родителя.
Значение NULL возвращается для любых узлов на корневом уровне.
ОПИСАНИЕ_УЗЛА
То же самое, что и заголовок узла.
NODE_RULE
Всегда пусто.
MARGINAL_RULE
Всегда пусто.
УЗЕЛ_ВЕРОЯТНОСТЬ
Model root Всегда 0.
Узлы кластера Скорректированная вероятность кластера в модели. Скорректированные вероятности не суммируются до 1, так как метод кластеризации, используемый в кластеризации последовательностей, разрешает частичное членство в нескольких кластерах.
Узлы последовательности Всегда 0.
Узлы перехода Всегда 0.
маргинальная вероятность
Корень модели всегда 0.
Узлы кластера То же значение, что и NODE_PROBABILITY.
Узлы последовательности Всегда 0.
Узлы переходов Всегда 0.
NODE_DISTRIBUTION
Таблица, содержащая вероятности и другие сведения. Дополнительные сведения см. в NODE_DISTRIBUTION таблице.
NODE_SUPPORT
Количество переходов, поддерживающих этот узел. Таким образом, если в обучающих данных содержится 30 примеров последовательности "Продукт A, за которым следует Product B", общая поддержка составляет 30.
Корень модели Общее количество переходов в модели.
Узлы кластера Сырая поддержка для кластера, то есть количество обучающих случаев, которые вносят вклад в этот кластер.
Узлы последовательности Всегда 0.
Узлы перехода Процент случаев в кластере, которые представляют собой конкретный переход. Может быть 0 или иметь положительное значение. Вычисляется путем взятия исходной поддержки узла в кластере и умножения на вероятность данного кластера.
Из этого значения можно определить, сколько вариантов обучения способствовало переходу.
MSOLAP_MODEL_COLUMN
Неприменимо.
MSOLAP_NODE_SCORE
Неприменимо.
MSOLAP_NODE_SHORT_CAPTION
То же, что и NODE_DESCRIPTION.
Общие сведения о последовательностях, состояниях и переходах
Модель кластеризации последовательностей имеет уникальную структуру, которая объединяет два типа объектов с очень разными типами информации: первый — кластеры, а второй — переходы состояния.
Кластеры, созданные с помощью кластеризации последовательностей, похожи на кластеры, созданные алгоритмом кластеризации Майкрософт. Каждый кластер имеет профиль и характеристики. Однако в кластеризации последовательностей каждый кластер дополнительно содержит один дочерний узел, который перечисляет последовательности в этом кластере. Каждый узел последовательности содержит несколько дочерних узлов, описывающих переходы состояния подробно с вероятностями.
В модели почти всегда больше последовательностей, чем можно найти в любом одном случае, так как последовательности можно объединить. Службы Microsoft Analysis Services хранят указатели из одного состояния в другое, чтобы можно было подсчитать количество случаев каждого перехода. Вы также можете найти сведения о том, сколько раз произошла последовательность, и оценить ее вероятность возникновения по сравнению со всем набором наблюдаемых состояний.
В следующей таблице приведены сведения о том, как информация хранится в модели и как связаны узлы.
| Узел | Имеет дочерний узел | таблица NODE_DISTRIBUTION |
|---|---|---|
| Корень модели | Несколько узлов кластера Узел с последовательностями для всей модели |
Выводит список всех продуктов в модели с поддержкой и вероятностью. Так как метод кластеризации разрешает частичное членство в нескольких кластерах, поддержка и вероятность могут иметь дробные значения. То есть вместо подсчета одного случая каждый случай может принадлежать нескольким кластерам. Поэтому при определении окончательного членства в кластере значение корректируется вероятностью этого кластера. |
| Узел последовательности для модели | Несколько узлов перехода | Выводит список всех продуктов в модели с поддержкой и вероятностью. Так как количество последовательностей известно для модели, на этом уровне вычисления для поддержки и вероятности просты: Поддержка = количество случаев Вероятность = необработанная вероятность каждой последовательности в модели. Все вероятности должны суммироваться до 1. |
| Отдельные узлы кластера | Узел содержащий последовательности только для этого кластера | Перечисляет все продукты в кластере, но предоставляет значения поддержки и вероятности только для продуктов, характерных для кластера. Поддержка представляет скорректированное значение поддержки для каждого случая в этом кластере. Значения вероятности корректируются. |
| Узлы последовательности для отдельных кластеров | Несколько узлов с переходами только для последовательностей в этом кластере | Точно те же сведения, что и в отдельных узлах кластера. |
| Переходы | Нет детей | Выводит список переходов для связанного первого состояния. Поддержка — это скорректированное значение поддержки, указывающее случаи, которые принимают участие в каждом переходе. Вероятность — это скорректированная вероятность, представленная в процентах. |
Таблица NODE_DISTRIBUTION
Таблица NODE_DISTRIBUTION предоставляет подробные сведения о вероятности и поддержке переходов и последовательностей для определенного кластера.
Строка всегда добавляется в таблицу перехода для представления возможных Missing значений. Сведения о том, что означает значение Missing и как оно влияет на вычисления, см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).
Вычисления для поддержки и вероятности различаются в зависимости от того, применяется ли вычисление к учебным случаям или к готовой модели. Это связано с тем, что метод кластеризации по умолчанию, метод максимизации ожидания (EM), предполагает, что любой случай может принадлежать нескольким кластерам. При расчете поддержки для случаев в модели можно использовать необработанные значения и вероятности. Однако вероятности для любой определенной последовательности в кластере должны быть взвешированы суммой всех возможных сочетаний последовательностей и кластеров.
Мощность
В модели кластеризации кратность родительского узла обычно указывает, сколько кластеров в модели. Однако модель кластеризации последовательностей имеет два типа узлов на уровне кластера: один узел содержит кластеры, а другой тип узла содержит список последовательностей для модели в целом.
Таким образом, чтобы узнать количество кластеров в модели, можно получить значение NODE_CARDINALITY для узла (все) и вычитать один. Например, если модель создала 9 кластеров, кардинальность корня модели составляет 10. Это связано с тем, что модель содержит 9 узлов кластера, каждый из которых имеет собственный узел последовательности, а также один дополнительный узел последовательности, помеченный кластером 10, который представляет последовательности для модели.
Пошаговое руководство по структуре
Пример может помочь выяснить, как хранится информация и как ее интерпретировать. Например, можно найти самый большой порядок, что означает самую длинную наблюдаемую цепочку в базовых данных AdventureWorksDW2012 с помощью следующего запроса:
USE AdventureWorksDW2012
SELECT DISTINCT OrderNumber, Count(*)
FROM vAssocSeqLineItems
GROUP BY OrderNumber
ORDER BY Count(*) DESC
В этих результатах вы найдете, что номера заказов "SO72656", "SO58845" и "SO70714" содержат самые большие последовательности с восемью элементами. Используя идентификаторы заказов, вы можете просмотреть сведения о конкретном заказе, чтобы узнать, какие элементы были приобретены, и в каком порядке.
| Номер заказа | Номер строки | Модель |
|---|---|---|
| SO58845 | 1 | Mountain-500 |
| SO58845 | 2 | LL Mountain Tire |
| SO58845 | 3 | Горная шина труба |
| SO58845 | 4 | Fender Set - Гора |
| SO58845 | 5 | Держатель для бутылок на горный велосипед |
| SO58845 | 6 | Бутылка для воды |
| SO58845 | 7 | Спорт-100 |
| SO58845 | 8 | Long-Sleeve Логотип Джерси |
Однако некоторые клиенты, которые покупают Mountain-500, могут приобрести различные продукты. Вы можете просмотреть все продукты, которые следуют за Mountain-500, посмотрев список последовательностей в модели. В следующих процедурах показано, как просмотреть эти последовательности с помощью двух средств просмотра, предоставляемых в службах Analysis Services:
Просмотр связанных последовательностей с помощью средства просмотра кластеризации последовательностей
В обозревателе объектов щелкните правой кнопкой мыши модель [Кластеризация последовательности] и выберите "Обзор".
В средстве просмотра кластеризации последовательностей перейдите на вкладку "Переходы состояния ".
В раскрывающемся списке кластера убедитесь, что выбрано население (все).
Переместите ползунок слева от панели в верхней части, чтобы отобразить все ссылки.
На схеме найдите Mountain-500 и щелкните узел на схеме.
Выделенные линии указывают на следующие этапы (продукты, приобретенные после Mountain-500), и цифры показывают вероятность. Сравните их с результатами в просмотрщике содержимого универсальной модели.
Просмотр связанных последовательностей с помощью средства просмотра содержимого универсальной модели
В обозревателе объектов щелкните правой кнопкой мыши модель [Кластеризация последовательности] и выберите "Обзор".
В раскрывающемся списке средства просмотра выберите средство просмотра дерева универсального содержимого Майкрософт.
В области заголовка узла щелкните узел с именем "Уровень последовательности" для кластера 16.
В области сведений о узле найдите строку NODE_DISTRIBUTION и щелкните в любом месте вложенной таблицы.
Верхняя строка всегда соответствует отсутствующим значениям. Эта строка имеет состояние последовательности 0.
Нажимайте клавишу СТРЕЛКА ВНИЗ или используйте полосы прокрутки, чтобы перейти вниз по вложенной таблице, пока не увидите строку Mountain-500.
Эта строка является состоянием последовательности 20.
Замечание
Вы можете получить номер строки для определенного состояния последовательности программным способом, но если вы только просматриваете, это может быть проще просто скопировать вложенную таблицу в книгу Excel.
Вернитесь к панели заголовка узла и разверните узел, уровень последовательности для кластера 16, если он еще не развернут.
Просмотрите среди дочерних узлов строку перехода для состояния последовательности 20. Щелкните узел перехода.
Вложенная таблица NODE_DISTRIBUTION содержит следующие продукты и вероятности. Сравните эти результаты на вкладке "Переход состояния " средства просмотра кластеризации последовательностей.
В следующей таблице показаны результаты из таблицы NODE_DISTRIBUTION вместе со значениями округленной вероятности, отображаемыми в графическом средстве просмотра.
| Продукт | Поддержка (таблица NODE_DISTRIBUTION) | Таблица вероятностей (распределение узлов) | Вероятность (из графа) |
|---|---|---|---|
| Отсутствует | 48.447887 | 0.138028169 | (не отображается) |
| Велосипедная крышка | 10.876056 | 0.030985915 | 0,03 |
| Fender Set - Гора | 80.087324 | 0.228169014 | 0,23 |
| перчатки Half-Finger | 0.9887324 | 0.002816901 | 0.00 |
| Пакет гидратации | 0.9887324 | 0,002816901 | 0.00 |
| LL Mountain Tire | 51.414085 | 0.146478873 | 0,15 |
| Long-Sleeve Логотип Джерси | 2.9661972 | 0.008450704 | 0,01 |
| Держатель для бутылок на горный велосипед | 87.997183 | 0.250704225 | 0.25 |
| Горная шина труба | 16.808451 | 0.047887324 | 0.05 |
| Short-Sleeve Классический Джерси | 10.876056 | 0.030985915 | 0,03 |
| Спорт-100 | 20.76338 | 0.05915493 | 0,06 |
| бутылка для воды | 18.785915 | 0.053521127 | 0.25 |
Хотя случай, который мы первоначально выбрали из обучающих данных, содержал продукт Mountain-500, за которым следует LL Mountain Tire, вы можете увидеть, что есть много других возможных последовательностей. Чтобы найти подробные сведения для любого конкретного кластера, необходимо повторить процесс детализации из списка последовательностей в кластере до фактических переходов для каждого состояния или продукта.
Вы можете перейти из последовательности, указанной в одном конкретном кластере, в строку перехода. Из строки перехода можно определить, какой продукт будет следующим, и вернуться к этому продукту в списке последовательностей. Повторяя этот процесс для каждого первого и второго состояния, можно работать с длинными цепочками состояний.
Использование сведений о последовательности
Распространенный сценарий кластеризации последовательностей — отслеживание щелчков пользователей на веб-сайте. Например, если данные были из записей покупок клиентов на веб-сайте e-commerce Adventure Works, результирующая модель кластеризации последовательностей может использоваться для вывода поведения пользователей, для изменения сайта электронной коммерции для решения проблем навигации или повышения продаж.
Например, анализ может показать, что пользователи всегда следуют определенной цепочке продуктов независимо от демографических данных. Кроме того, вы можете найти, что пользователи часто выходят из сайта после нажатия на определенный продукт. Учитывая это, вы можете попросить, какие дополнительные пути можно предоставить пользователям, которые побудят пользователей оставаться на веб-сайте.
Если у вас нет дополнительных сведений, используемых при классификации пользователей, можно просто использовать сведения о последовательности для сбора данных о навигации, чтобы лучше понять общее поведение. Однако если вы можете собирать сведения о клиентах и сопоставлять эти сведения с базой данных клиента, можно объединить возможности кластеризации с прогнозом на последовательностях, чтобы предоставить рекомендации, адаптированные для пользователя, или, возможно, на основе пути навигации к текущей странице.
Другое использование обширных сведений о состоянии и переходе, скомпилированных моделью кластеризации последовательностей, заключается в определении возможных путей, которые никогда не используются. Например, если у вас много посетителей, которые заходят на страницы 1-4, но никогда не переходят на страницу 5, вы можете исследовать, есть ли проблемы, которые препятствуют переходу на страницу 5. Это можно сделать, запрашивая содержимое модели и сравнивая его со списком возможных путей. Графы, указывающие всем путям навигации на веб-сайте, можно создавать программным способом или с помощью различных средств анализа сайтов.
Чтобы узнать, как получить список наблюдаемых путей, запрашивая содержимое модели, и просмотреть другие примеры запросов в модели кластеризации последовательностей, см. в разделе "Примеры запросов модели кластеризации последовательностей".
См. также
Содержимое модели майнинга данных (службы Analysis Services — интеллектуальный анализ данных)
Алгоритм кластеризации последовательностей Майкрософт
Примеры запросов модели кластеризации последовательностей