Алгоритм взаимосвязей (Майкрософт)
Алгоритм взаимосвязей Майкрософт является алгоритмом взаимосвязей, предоставляемым службами Analysis Services. Этот алгоритм полезен для механизмов выработки рекомендаций. Ядро рекомендаций рекомендует программы пользователям на основе элементов, которые они уже купили, или к которым проявили интерес. Алгоритм взаимосвязей (Майкрософт) полезно использовать для анализа потребительской корзины. Пример анализа покупательского поведения см. в разделе Занятие 3. Построение сценария потребительской корзины (учебник по интеллектуальному анализу данных — средний уровень) учебника по интеллектуальному анализу данных.
Модели взаимосвязей построены на наборах данных, содержащих идентификаторы для отдельных вариантов и элементов этих вариантов. Группа элементов в варианте называется набор элементов. Модель взаимосвязей состоит из рядов наборов элементов и правил, описывающих, как эти элементы группируются в вариантах. Правила, определяемые алгоритмом, могут использоваться для прогнозирования вероятных будущих покупок покупателей на основе элементов, уже имеющихся в корзине покупателя. На следующей диаграмме представлен ряд правил в наборе элементов.
Как видно на диаграмме, алгоритм взаимосвязей (Майкрософт) потенциально может находить в наборе данных много правил. Для описания набора элементов и формируемых ими правил алгоритм использует два параметра: поддержка и вероятность. Например, если X и Y представляют два элемента, которые могут находиться в корзине для покупок, то параметр несущего множества будет равен количеству вариантов в наборе данных, содержащих сочетание элементов X и Y. Используя параметр несущего множества в сочетании с пользовательскими параметрами MINIMUM_SUPPORT и MAXIMUM_SUPPORT,, алгоритм управляет количеством создаваемых наборов элементов. Параметр вероятности, называемый также достоверностью, представляет часть вариантов в наборе данных, содержащих X и Y. Используя параметр вероятности в сочетании с параметром MINIMUM_PROBABILITY, этот алгоритм управляет количеством сформированных правил.
Пример
Компания Adventure Works изменяет функциональные возможности своего веб-узла. Цель этого изменения заключается в увеличении успешных продаж продукции. Записи компании о каждой продаже хранятся в транзакционной базе данных, поэтому можно использовать алгоритм взаимосвязей (Майкрософт) для определения набора продуктов, которые часто покупаются вместе. Затем на основе продуктов, имеющихся в корзине клиентов, можно прогнозировать дополнительные продукты, в которых могут быть заинтересованы эти клиенты.
Принцип работы алгоритма
Алгоритм взаимосвязей (Майкрософт) прослеживает набор данных для поиска элементов, которые находятся в варианте совместно. Затем алгоритм группирует в наборы элементов любые связанные элементы, найденные, как минимум, в количестве вариантов, определенных параметром MINIMUM_SUPPORT. Например, возможен набор элементов «Горный 200=Существующий, Спортивный 100=Существующий», поддержка которого может составлять 710. Затем алгоритм формирует правила из наборов элементов. Правила используются для прогнозирования наличия элемента в базе данных на основе наличия других определенных элементов, которые алгоритм определяет как значимые. Например, возможно правило «если Туристический 1000=существующий и Контейнер для фляги=существующий, то Фляга=существующий» с вероятностью 0,812. В этом примере алгоритм определяет, что если в корзине имеется туристическая шина 1000 и контейнер для фляги, то, вероятно, там может быть и фляга для воды.
Более подробное описание алгоритма, наряду со списком параметров для настройки поведения алгоритма и контроля над результатами в модели интеллектуального анализа данных, см. в разделе Технический справочник по алгоритму взаимосвязей (Майкрософт).
Данные, необходимые для моделей взаимосвязей
При подготовке данных для использования в модели правил взаимосвязей, необходимо учитывать требования к конкретному алгоритму, включая то, сколько данных для него требуется и как эти данные используются.
Требования к модели правил взаимосвязей являются следующими.
Единственный столбец key . Каждая модель должна содержать один числовой или текстовый столбец, который однозначно идентифицирует каждую запись. Составные ключи не допускаются.
Единственный прогнозируемый столбец. Модель взаимосвязей может иметь только один прогнозируемый столбец. Как правило, он представляет собой ключевой столбец вложенной таблицы, такой как перечень приобретенных продуктов. Эти значения должны быть дискретными или дискретизированными.
Входные столбцы. Входные столбцы должны быть дискретными. Входные данные для модели взаимосвязей часто содержатся в двух таблицах. Например, в одной таблице могут содержаться сведения о клиенте, а в другой — сведения о покупках клиента. Можно ввести эти данные в модель с помощью вложенной таблицы. Дополнительные сведения о вложенных таблицах см. в разделе Вложенные таблицы (службы Analysis Services — интеллектуальный анализ данных).
Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями взаимосвязей, см. в разделе «Требования» статьи Технический справочник по алгоритму взаимосвязей (Майкрософт).
Просмотр модели взаимосвязей
Чтобы исследовать модель, можно использовать Средство просмотра взаимосвязей (Майкрософт). При просмотре модели взаимосвязей в службах Analysis Services представлены корреляции под различными углами зрения, что позволяет лучше понять связи и правила, обнаруживаемые в данных. В области Набор элементов средства просмотра предоставлена подробная классификация наиболее часто встречающихся сочетаний, или наборов элементов. В области Правила представлен список правил, которые были выведены на основании данных, дополнительно приведены результаты вычисления вероятностей, а сами правила ранжированы по относительной важности. Средство просмотра сети зависимостей позволяет исследовать визуально, как связаны отдельные элементы. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеров (Майкрософт).
Более подробные сведения о любом из наборов элементов и правил можно найти, открыв модель в средстве просмотра деревьев содержимого общего вида (Майкрософт). С моделью связано хранимое содержимое, которое включает несущее множество для каждого набора элементов, оценку для каждого правила и другие статистические данные. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей взаимосвязей (службы Analysis Services — интеллектуальный анализ данных).
Создание прогнозов
После обработки модели полученные правила и наборы элементов можно использовать для прогнозов. Прогнозы, выполняемые с помощью модели взаимосвязей, позволяют определить, какой элемент, скорее всего, обнаружится, если имеются сведения о присутствии указанного элемента, а сам прогноз может включать такую информацию, как вероятность, несущее множество или важность. Примеры создания запросов применительно к модели взаимосвязей см. в разделе Запрос модели взаимосвязей (службы Analysis Services — интеллектуальный анализ данных).
Дополнительные сведения о создании запроса к модели интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Производительность
Процесс создания наборов элементов и расчета значений корреляции может потребовать много времени. Хотя в алгоритме правил взаимосвязей Майкрософт используются методы оптимизации для экономии памяти и ускорения обработки, следует знать, что могут возникнуть проблемы производительности, в частности, при следующих условиях.
Применяется крупный набор данных, состоящий из большого количества отдельных элементов.
Задано слишком маленькое значение минимального размера набора элементов.
Чтобы свести к минимуму время обработки и уменьшить сложность наборов элементов, можно попытаться сгруппировать связанные элементы по категориям перед выполнением анализа данных.
Замечания
Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP.
Поддерживается создание измерений интеллектуального анализа данных.
См. также