Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

В интеллектуальном анализе данных (или машинном обучении) алгоритм — это набор эвристики и вычислений, который создает на основе данных модель. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций. Алгоритм применяет результаты этого анализа ко множеству итераций, чтобы подобрать оптимальные параметры для создания модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.

Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.

  • Набор кластеров, описывающих связи вариантов в наборе данных.

  • Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.

  • Математическую модель, прогнозирующую продажи.

  • Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.

Алгоритмы, предоставляемые в SQL Server интеллектуального анализа данных, являются наиболее популярными и хорошо изученными методами получения шаблонов из данных. Например, K-средний кластеризация является одним из старейших алгоритмов кластеризация и широко доступен во многих различных средствах и с множеством различных реализаций и вариантов. Однако конкретная реализация K-средних кластеризация, используемая в интеллектуальном анализе данных SQL Server, была разработана корпорацией Microsoft Research, а затем оптимизирована для повышения производительности с помощью SQL Server Analysis Services. Все алгоритмы интеллектуального анализа данных Майкрософт доступны для гибкой настройки и программирования с использованием предоставляемых API. Вы также можете автоматизировать создание, обучение и повторное обучение моделей с помощью компонентов интеллектуального анализа данных в службах Integration Services.

Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL Server.

Выбор правильного алгоритма

Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, алгоритм дерева принятия решений (Майкрософт) можно использовать не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.

Выбор алгоритма по типу

SQL Server интеллектуального анализа данных включает следующие типы алгоритмов:

  • Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.

  • Регрессивные алгоритмы осуществляют прогнозирование одной или нескольких непрерывных числовых переменных, например прибыли или убытков, на основе других атрибутов в наборе данных.

  • Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.

  • Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.

  • Алгоритмы анализа последовательностей обобщают часто встречающиеся в данных последовательности, такие как серия переходов по веб-сайту или событий, зарегистрированных в журнале перед ремонтом оборудования.

Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных. SQL Server интеллектуального анализа данных позволяет создавать несколько моделей на основе одной структуры интеллектуального анализа данных, поэтому в рамках одного решения для интеллектуального анализа данных можно использовать алгоритм кластеризация, модель деревьев принятия решений и упрощенную модель Байеса для получения различных представлений данных. В одном решении также можно использовать несколько алгоритмов для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на прогнозы.

Выбор алгоритма по задаче

Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.

Примеры задач Подходящие алгоритмы Майкрософт
Прогнозирование дискретного атрибута:

Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов.

Вычисление вероятности отказа сервера в течение следующих шести месяцев.

Классификация вариантов развития болезней пациентов и исследование связанных факторов.
Алгоритм дерева принятия решений (Майкрософт)

Microsoft Naive Bayes Algorithm

Алгоритм кластеризации (Майкрософт)

Microsoft Neural Network Algorithm
Прогнозирование непрерывного атрибута:

Прогноз продаж на следующий год.

Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций.

Формирование оценки риска с учетом демографии.
Алгоритм дерева принятия решений (Майкрософт)

Алгоритм временных рядов (Майкрософт)

Алгоритм линейной регрессии (Майкрософт)
Прогнозирование последовательности:

Анализ маршрута перемещения по веб-сайту компании.

Анализ факторов, ведущих к отказу сервера.

Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям.
Алгоритм кластеризации последовательностей (Майкрософт)
Нахождение групп общих элементов в транзакциях:

Использование анализа потребительской корзины для определения мест размещения продуктов.

Выявление дополнительных продуктов, которые можно предложить купить клиенту.

Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия.
Алгоритм взаимосвязей (Майкрософт)

Алгоритм дерева принятия решений (Майкрософт)
Нахождение групп схожих элементов:

Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение.

Анализ пользователей по шаблонам просмотра и покупки.

Определение серверов, которые имеют аналогичные характеристики использования.
Алгоритм кластеризации (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт)

В следующем разделе приведены ссылки на учебные ресурсы для каждого алгоритма интеллектуального анализа данных, которые предоставляются в SQL Server Data Mining:

Раздел Описание
Определение алгоритма, используемого моделью интеллектуального анализа данных запросить параметры, используемые для создания модели интеллектуального анализа данных
Создание пользовательского подключаемого алгоритма Подключаемые алгоритмы
Исследование модели с помощью средства просмотра конкретного алгоритма Средства просмотра моделей интеллектуального анализа данных
Просмотр содержимого модели с помощью общего формата таблицы Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт)
Сведения о настройке данных и использовании алгоритмов для создания моделей Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

См. также:

Средства интеллектуального анализа данных