Упрощенный алгоритм Байеса (Майкрософт)

Статья
07/30/2013

Упрощенный алгоритм Байеса (Майкрософт) — это алгоритм классификации, основанный на теоремах Байеса, и предусмотрен в службах Microsoft SQL Server Analysis Services для использования в прогнозирующем моделировании. Слово «упрощенный» в его названии указывает на то, что алгоритм использует методы Байеса, но не учитывает возможные зависимости. Дополнительных сведений о методах Байеса см. в разделе Исследовательское сообщество Майкрософт.

Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы Майкрософт, и полезен для быстрого создания моделей интеллектуального анализа данных, которые позволяют обнаруживать связи между входными и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального исследования данных, а затем применить результаты для создания дополнительных моделей интеллектуального анализа с другими алгоритмами, требующими большего количества вычислений и являющимися более точными.

Пример

В рамках постоянной стратегии продвижения отдел маркетинга компании Adventure Works Cycle решил разослать листовки потенциальным клиентам. Чтобы снизить себестоимость, было принято решение рассылать листовки только тем клиентам, которые, вероятно, ответят. Компания хранит в базе данных демографические данные и сведения об ответах на предыдущие рассылки. Необходимо использовать эти данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили велосипед, и теми, которые не купили.

Используя упрощенный алгоритм Байеса Microsoft, отдел маркетинга может быстро спрогнозировать результат для конкретного профиля клиентов и определить, какие клиенты с наибольшей вероятностью ответят на листовки. Используя средство просмотра упрощенного алгоритма Байеса (Майкрософт) в среде SQL Server Data Tools (SSDT), они могут визуально исследовать, какие конкретные входные столбцы способствуют положительному ответу на листовки.

Принцип работы алгоритма

Упрощенный алгоритм Байеса (Майкрософт) рассчитывает вероятность состояния каждого входного столбца при каждом возможном состоянии прогнозируемого столбца.

Разобраться в работе этого метода можно с помощью средства просмотра упрощенного алгоритма Байеса (Майкрософт) в среде SQL Server Data Tools (SSDT) (см. рисунок). Оно позволяет в наглядном режиме исследовать, как происходит распределение состояний при помощи этого алгоритма.

Упрощенный алгоритм Байеса распределения состояний

Здесь средство просмотра упрощенного алгоритма Байеса (Майкрософт) содержит список всех входных столбцов в наборе данных и показывает, как распределяются состояния каждого из столбцов при каждом из состояний прогнозируемого столбца.

С помощью этого представления модели можно определить входные столбцы, которые важны для разграничения состояний прогнозируемого столбца.

Например, в строке для поля Commute Distance, как показано здесь, распределение входных значений наглядно отличается для покупателей и непокупателей. Показанные данные указывают на то, что входное значение Commute Distance = 0-1,6 км потенциально имеет влияние на результат прогноза.

Средство просмотра также отображает значения для отдельных классов продуктов таким образом, что можно увидеть, что для клиентов, которые преодолевают расстояние от 1 до 3,3 километра от дома до рабочего места, вероятность приобретения велосипеда составляет 0,387, а вероятность его неприобретения — 0,287. В данном примере для прогнозирования вероятности покупки велосипеда алгоритм использует числовые данные, полученные из характеристик клиентов, например расстояния до работы.

Дополнительные сведения об использовании средства просмотра упрощенного алгоритма Байеса (Майкрософт) см. в разделе Просмотр модели с помощью средства просмотра упрощенного алгоритма Байеса (Майкрософт).

Данные, необходимые для моделей упрощенного алгоритма Байеса

При подготовке данных, предназначенных для использования в обучении модели упрощенного алгоритма Байеса, следует учитывать требования алгоритма, в том числе необходимый объем данных и способ их использования.

Далее приводятся требования для модели упрощенного алгоритма Байеса.

Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.
Входные столбцы В модели упрощенного алгоритма Байеса все столбцы должны быть дискретными или дискретизированными. Дополнительные сведения о дискретизации столбцов см. в разделе Методы дискретизации (Интеллектуальный анализ данных).

Для модели упрощенного алгоритма Байеса также важно обеспечить независимость входных атрибутов друг от друга. Это особенно важно, когда модель используется для прогнозирования.

Причина этого заключается в том, что если использовать два столбца данных, которые тесно связаны между собой, то это приведет к умножению значений этих столбцов, что может затруднить интерпретацию других факторов, влияющих на результат.

Напротив, возможность алгоритма определять связи между переменными полезна при исследовании модели или набора данных для обнаружения связей между входными данными.
По крайней мере один прогнозируемый столбец Прогнозируемый атрибут должен содержать дискретные или дискретизированные значения.

Значения в прогнозируемом столбце могут рассматриваться как входные. Такая практика может оказаться полезной при исследовании нового набора данных для обнаружения связей между столбцами.

Просмотр модели

Для просмотра модели используется средство просмотра упрощенного алгоритма Байеса (Майкрософт). Средство просмотра показывает, как входные атрибуты связаны с прогнозируемым атрибутом. Также приводится подробный профиль каждого кластера, список атрибутов, отличающих кластер от остальных, и характеристики всего набора данных для обучения. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра упрощенного алгоритма Байеса (Майкрософт).

Чтобы получить более подробные сведения, модель можно просмотреть в средстве, описанном в разделе Средство просмотра деревьев содержимого общего вида (Майкрософт) (интеллектуальный анализ данных). Дополнительные сведения о типе данных, хранимых в модели, см. в разделе Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных).

Составление прогнозов

После обучения модели результаты хранятся в виде набора закономерностей, которые можно исследовать или делать на их основе прогнозы.

Можно создавать запросы, возвращающие прогнозы о связи новых данных с прогнозируемым атрибутом, или получать статистику, описывающую взаимосвязи, обнаруженные моделью.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных. Примеры использования запросов с моделью упрощенного алгоритма Байеса см. в разделе Примеры запросов к модели упрощенного алгоритма Байеса.

Замечания

Поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается использование моделей интеллектуального анализа OLAP.