Технический справочник по упрощенному алгоритму Байеса (Майкрософт)
Упрощенный алгоритм Байеса (Майкрософт) является алгоритмом классификации, предоставляемым службами Microsoft SQL Server Службы Analysis Services для использования в прогнозирующем моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Из-за этого предположения о независимости алгоритм и называется упрощенным алгоритмом Байеса.
Реализация упрощенного алгоритма Байеса (Майкрософт)
Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы Майкрософт, и является полезным для быстрого формирования моделей интеллектуального анализа данных для обнаружения отношений между входными и прогнозируемыми столбцами. Алгоритм учитывает все пары значений входного атрибута и выходного атрибута.
Описание математических свойств теоремы Байеса выходит за рамки данной документации; дополнительные сведения см. в статье Группы исследований Майкрософт под названием Обучаемые байесовские сети: Сочетание знаний и статистических данных.
Описание уточнения вероятностей во всех моделях для учета возможных отсутствующих величин см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).
Выбор характеристик
Упрощенный алгоритм Байеса (Майкрософт) проводит автоматический выбор характеристик для уменьшения количества значений, учитываемых при построении модели. Дополнительные сведения см. в разделе Выбор характеристик в интеллектуальном анализе данных.
Алгоритм |
Метод анализа |
Комментарии |
---|---|---|
Упрощенный алгоритм Байеса |
Энтропия Шеннона Алгоритм Байеса с априорной оценкой K2 Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию) |
В упрощенном алгоритме Байеса допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности. |
Алгоритм разработан для минимизации времени обработки; он эффективно отбирает атрибуты с наибольшей важностью. Однако данные, используемые алгоритмом, можно контролировать, изменяя следующие параметры.
Для ограничения количества входных значений следует уменьшить параметр MAXIMUM_INPUT_ATTRIBUTES.
Для ограничения количества атрибутов, анализируемых моделью, следует уменьшить параметр MAXIMUM_OUTPUT_ATTRIBUTES.
Для ограничения количества значений, учитываемых для каждого атрибута, следует уменьшить параметр MINIMUM_STATES.
Настройка упрощенного алгоритма Байеса
Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на поведение, производительность и точность получающейся в результате модели интеллектуального анализа. Можно также изменять способ обработки данных в модели, устанавливая на столбцах флаги модели или устанавливая флаги на структуре интеллектуального анализа данных, чтобы задать способы обработки отсутствующих значений столбцов и значений, равных NULL.
Задание параметров алгоритма
Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность получающейся в результате модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.
MAXIMUM_INPUT_ATTRIBUTES
Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора характеристик. Установка этого значения равным 0 отключает выбор характеристик для входных атрибутов.Значение по умолчанию равно 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора характеристик. Установка этого значения равным 0 отключает выбор характеристик для выходных атрибутов.Значение по умолчанию равно 255.
MINIMUM_DEPENDENCY_PROBABILITY
Задает минимальную вероятность зависимости между входными и выходными атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Для этого свойства можно задать значение от 0 до 1. Чем больше значения, тем меньше количество атрибутов в содержимом модели.Значение по умолчанию равно 0,5.
MAXIMUM_STATES
Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибутов превышает максимально возможное количество состояний, то алгоритм использует наиболее частые состояния атрибутов и считает остальные состояния отсутствующими.Значение по умолчанию равно 100.
Флаги моделирования
Алгоритм деревьев решений (Майкрософт) поддерживает следующие флаги модели. Чтобы задать порядок обработки в ходе анализа значений в каждом столбце, во время создания структуры или модели интеллектуального анализа данных определяются флаги модели. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).
Флаг модели |
Описание |
---|---|
MODEL_EXISTENCE_ONLY |
Столбец будет обрабатываться так, как будто у него два возможных состояния: отсутствует и присутствует. NULL означает отсутствие значения. Применяется к столбцу модели интеллектуального анализа данных. |
NOT NULL |
Указывает, что столбец не может принимать значение NULL. Если службы Analysis Services в ходе обучения модели обнаружат значение NULL, возникает ошибка. Применяется к столбцу структуры интеллектуального анализа данных. |
Требования
Древовидная модель упрощенного алгоритма Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Непрерывные атрибуты не допускаются; если в данных содержатся непрерывные числовые данные, они будут пропущены или дискретизированы.
Входные и прогнозируемые столбцы
Упрощенный алгоритм Байеса (Майкрософт) поддерживает определенные входные столбцы данных и прогнозируемые столбцы, которые перечислены ниже в таблице. Дополнительные сведения о значении типов содержимого в применении к модели интеллектуального анализа данных см. в разделе Типы содержимого (интеллектуальный анализ данных).
Столбец |
Типы содержимого |
---|---|
Входной атрибут |
Cyclical, Discrete, Discretized, Key, Table и Ordered |
Прогнозируемый атрибут |
Cyclical, Discrete, Discretized, Table и Ordered |
Примечание |
---|
Типы содержимого Cyclical и Ordered поддерживаются, но алгоритм обрабатывает их как дискретные величины и не производит их особой обработки. |
См. также