Основные понятия дата-майнинга

Интеллектуальный анализ данных — это процесс обнаружения практических сведений из больших наборов данных. Анализ данных с помощью методов интеллектуального анализа использует математический анализ для выявления закономерностей и трендов, содержащихся в данных. Как правило, эти шаблоны не могут быть обнаружены традиционным исследованием данных, так как связи слишком сложны или из-за слишком большого количества данных.

Эти шаблоны и тенденции можно собирать и определять как модель интеллектуального анализа данных. Модели интеллектуального анализа данных можно применять к определенным сценариям, таким как:

  • Прогнозирование: оценка продаж, прогнозирование нагрузки сервера или простоя сервера

  • Риск и вероятность: выбор лучших клиентов для целевых рассылок, определение вероятной точки безубыточности для сценариев риска, назначение вероятностей для диагностики или других результатов

  • Рекомендации. Определение продуктов, которые, скорее всего, будут продаваться вместе, создавая рекомендации

  • Поиск последовательностей: анализ выбора клиентов в корзине, прогнозирование следующих вероятных событий

  • Группирование: разделение клиентов или событий в кластер связанных элементов, анализ и прогнозирование сопоставлений

Создание модели анализа данных является частью более крупного процесса, включающего все этапы от постановки вопросов о данных и создания модели для ответов на них до развертывания модели в рабочей среде. Этот процесс можно определить с помощью следующих шести основных шагов:

  1. Определение проблемы

  2. Подготовка данных

  3. Изучение данных

  4. Создание моделей

  5. Изучение и проверка моделей

  6. Развертывание и обновление моделей

На следующей схеме описываются связи между каждым этапом процесса и технологиями в Microsoft SQL Server, которые можно использовать для выполнения каждого шага.

Ключевые шаги процесса интеллектуального анализа данных

Процесс, показанный на схеме, циклический, означает, что создание модели интеллектуального анализа данных является динамическим и итеративным процессом. После изучения данных вы можете обнаружить, что данные недостаточны для создания соответствующих моделей интеллектуального анализа, в связи с этим, вам может понадобиться искать дополнительные данные. Кроме того, можно создать несколько моделей, а затем понять, что модели не отвечают на определенную проблему, и поэтому необходимо переопределить проблему. Возможно, вам придется обновить модели после их развертывания, так как все больше данных стало доступным. Каждый шаг процесса может повторяться много раз, чтобы создать хорошую модель.

Microsoft SQL Server Data Mining предоставляет интегрированную среду для создания и работы с моделями интеллектуального анализа данных. Эта среда включает SQL Server Development Studio, которая содержит алгоритмы интеллектуального анализа данных и средства запросов, которые упрощают создание комплексного решения для различных проектов и SQL Server Management Studio, которые содержат средства для просмотра моделей и управления объектами интеллектуального анализа данных. Дополнительные сведения см. в статье "Создание многомерных моделей с помощью СРЕДСТВ данных SQL Server (SSDT)".

Пример применения средств SQL Server к бизнес-сценарию см. в руководстве по базовому интеллектуальному анализу данных.

Определение проблемы

Первый шаг процесса интеллектуального анализа данных, как показано на следующей схеме, заключается в четком определении проблемы и рассмотрении способов использования данных для предоставления ответа на проблему.

Первый шаг интеллектуального анализа данных: определение проблемы

Этот шаг включает анализ бизнес-требований, определение области проблемы, определение метрик, с помощью которых будет оцениваться модель, и определение конкретных целей для проекта интеллектуального анализа данных. Эти задачи переводятся в такие вопросы, как:

  • Что Вы ищите? Какие типы связей вы пытаетесь найти?

  • Пытаетесь ли решить проблему в соответствии с политиками или процессами бизнеса?

  • Вы хотите сделать прогнозы из модели интеллектуального анализа данных или просто искать интересные шаблоны и связи?

  • Какой результат или атрибут вы хотите попытаться предсказать?

  • Какие данные имеются и какие данные содержатся в каждом столбце? Если существует несколько таблиц, как связаны таблицы? Необходимо ли выполнять очистку, агрегирование или обработку, чтобы сделать данные пригодными для использования?

  • Как распределяются данные? Являются ли данные сезонными? Точно ли данные представляют процессы бизнеса?

Чтобы ответить на эти вопросы, может потребоваться провести исследование доступности данных, чтобы изучить потребности бизнес-пользователей в отношении доступных данных. Если данные не поддерживают потребности пользователей, может потребоваться переопределить проект.

Кроме того, необходимо рассмотреть способы, в которых результаты модели могут быть включены в ключевые показатели эффективности (KPI), которые используются для измерения прогресса бизнеса.

Подготовка данных

Второй шаг процесса интеллектуального анализа данных, как показано на следующей схеме, заключается в консолидации и очистке данных, которые были определены на этапе определения проблемы .

Второй шаг интеллектуального анализа данных: подготовка данных

Данные могут быть разбросаны по всей компании и храниться в разных форматах или могут содержать несоответствия, такие как неправильные или отсутствующие записи. Например, данные могут показать, что клиент купил продукт до того, как он был представлен на рынке, или что клиент регулярно совершает покупки в магазине, находящемся за 2000 миль от ее дома.

Очистка данных заключается не только в удалении плохих данных или интерполяции отсутствующих значений, а о поиске скрытых корреляций в данных, определении источников данных, наиболее точных и определении наиболее подходящих столбцов для использования в анализе. Например, следует использовать дату доставки или дату заказа? Может ли количество, общая цена или сниженная цена быть лучшим фактором влияния на продажи? Неполные данные, неправильные данные и входные данные, которые отображаются отдельно, но на самом деле сильно коррелируют все могут влиять на результаты модели способами, которые не ожидаются.

Таким образом, прежде чем приступать к созданию моделей интеллектуального анализа данных, необходимо выявить эти проблемы и определить, как вы собираетесь их устранить. Для интеллектуального анализа данных обычно вы работаете с очень большим набором данных и не можете проверять каждую транзакцию для качества данных; Поэтому может потребоваться использовать некоторые формы профилирования данных и автоматизированных средств очистки и фильтрации данных, таких как те, которые предоставляются в службах Integration Services, Microsoft SQL Server 2012 Master Data Services или SQL Server Data Quality Services для изучения данных и поиска несоответствий. Дополнительные сведения см. в следующих ресурсах:

Важно отметить, что данные, используемые для интеллектуального анализа данных, не должны храниться в кубе оперативной аналитической обработки (OLAP) или даже в реляционной базе данных, хотя их можно использовать как источники данных. Вы можете проводить добычу данных, используя любой источник данных, который был определён как источник данных служб Analysis Services. Они могут включать текстовые файлы, книги Excel или данные других внешних поставщиков. Дополнительные сведения см. в разделе "Поддерживаемые источники данных" (многомерные службы SSAS).

Изучение данных

Третий шаг процесса интеллектуального анализа данных, как показано на следующей схеме, — изучение подготовленных данных.

Третий шаг интеллектуального анализа данных: исследование данных

Для принятия соответствующих решений при создании моделей интеллектуального анализа данных необходимо понимать данные. Методы исследования включают вычисление минимальных и максимальных значений, вычисление средних и стандартных отклонений и просмотр распределения данных. Например, можно определить, просмотрив максимальное, минимальное и среднее значение, что данные не являются репрезентативными клиентами или бизнес-процессами, и поэтому необходимо получить более сбалансированные данные или проверить предположения, которые являются основой для ваших ожиданий. Стандартные отклонения и другие значения распределения могут предоставлять полезную информацию о стабильности и точности результатов. Большое стандартное отклонение может указывать на то, что добавление дополнительных данных может помочь улучшить модель. Данные, которые сильно отклоняются от стандартного распределения, могут быть искажены или представлять точную картину реальной проблемы, но затруднять создание модели, соответствующей этим данным.

Изучая данные в свете вашей собственной бизнес-проблемы, вы можете решить, содержит ли набор данных недостатки данных, а затем вы можете разработать стратегию устранения проблем или получить более глубокое представление о поведении, которые являются типичными для вашего бизнеса.

Вы можете использовать такие средства, как Master Data Services, для изучения доступных источников данных и определения их пригодности для интеллектуального анализа данных. Вы можете использовать такие средства, как службы качества данных SQL Server или профилировщик данных в службах Integration Services, для анализа распределения данных и восстановления таких проблем, как неправильные или отсутствующие данные.

После определения источников их можно объединить в представлении источника данных с помощью конструктора представлений источников данных в SQL Server Data Tools. Дополнительные сведения см. в разделе "Представления источников данных" в многомерных моделях. Этот конструктор также содержит несколько инструментов, которые можно использовать для изучения данных и проверки того, что она будет работать для создания модели. Дополнительные сведения см. в разделе "Изучение данных" в представлении источника данных (службы Analysis Services).

Обратите внимание, что при создании модели службы Analysis Services автоматически создают статистические сводки данных, содержащихся в модели, которые можно запрашивать для использования в отчетах или последующем анализе. Дополнительные сведения см. в разделе "Запросы интеллектуального анализа данных".

Создание моделей

Четвертый этап процесса интеллектуального анализа данных, как показано на следующей схеме, заключается в создании модели интеллектуального анализа данных или моделей. Вы будете использовать знания, полученные на шаге "Изучение данных ", чтобы определить и создать модели.

Четвертый шаг интеллектуального анализа данных: создание моделей

Вы определяете столбцы данных, которые вы хотите использовать, создав структуру интеллектуального анализа данных. Структура добычи данных связана с источником данных, но на самом деле не содержит никаких данных, пока не обработаете её. При обработке структуры майнинга служба Analysis Services создаёт агрегаты и другую статистическую информацию, которую можно использовать для анализа. Эти сведения могут быть использованы любой моделью интеллектуального анализа данных, которая основана на структуре. Для получения дополнительной информации о том, как структуры Data Mining связаны с моделями Data Mining, см. в разделе Логическая архитектура (службы Analysis Services — Data Mining).

Перед обработкой структуры и модели, модель интеллектуального анализа данных также является контейнером, который определяет столбцы, используемые для ввода, атрибут, который вы прогнозируете, и параметры, которые указывают алгоритму, как обрабатывать данные. Обработка модели часто называется обучением. Обучение относится к процессу применения определенного математического алгоритма к данным в структуре для извлечения шаблонов. Шаблоны, которые вы найдете в процессе обучения, зависят от выбора обучающих данных, выбранного алгоритма и настройки алгоритма. SQL Server 2014 содержит множество различных алгоритмов, каждый из которых подходит для разного типа задачи, и каждый из них создает другой тип модели. Список алгоритмов, предоставляемых в SQL Server 2014, см. в разделе "Алгоритмы интеллектуального анализа данных" (службы Analysis Services — интеллектуальный анализ данных).

Вы также можете использовать параметры для настройки каждого алгоритма, и вы можете применить фильтры к данным обучения, чтобы использовать только подмножество данных, создавая разные результаты. После передачи данных через модель объект модели интеллектуального анализа данных содержит сводки и шаблоны, которые можно запрашивать или использовать для прогнозирования.

Вы можете определить новую модель с помощью мастера интеллектуального анализа данных в SQL Server Data Tools или с помощью языка расширений интеллектуального анализа данных (DMX). Дополнительные сведения об использовании мастера интеллектуального анализа данных см. в мастере интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных). Дополнительные сведения об использовании интеллектуального анализа данных см. в справочнике по расширениям интеллектуального анализа данных (DMX).

Важно помнить, что при изменении данных необходимо обновить и структуру, и модель анализа данных. При обновлении структуры интеллектуального анализа данных путем ее повторной обработки служба Analysis Services извлекает данные из источника, включая новые данные, если источник динамически обновляется, и перезаполняет структуру интеллектуального анализа данных. Если у вас есть модели, основанные на структуре, можно обновить модели, основанные на структуре, что означает, что они переобучены на новых данных или вы можете оставить модели как есть. Дополнительные сведения см. в разделе "Требования к обработке и рекомендации" (интеллектуальный анализ данных).

Изучение и проверка моделей

Пятый этап процесса интеллектуального анализа данных, как показано на следующей схеме, — это исследование созданных моделей и проверка их эффективности.

Пятый шаг интеллектуального анализа данных: проверка моделей

Перед развертыванием модели в рабочей среде необходимо проверить, насколько хорошо работает модель. Кроме того, при сборке модели обычно создается несколько моделей с разными конфигурациями и тестируются все модели, чтобы увидеть, какие результаты будут оптимальными для вашей проблемы и данных.

Службы Analysis Services предоставляют средства, которые помогают разделить данные на наборы данных для обучения и тестирования, чтобы точно оценить производительность всех моделей на одних и том же данных. Для создания модели используется обучающий набор данных, а также набор данных тестирования для проверки точности модели путем создания запросов прогнозирования. В SQL Server 2014 Analysis Services (SSAS) это разделение можно выполнить автоматически при построении модели анализа данных. Дополнительные сведения см. в разделе "Тестирование и проверка" (интеллектуальный анализ данных).

Вы можете изучить тенденции и шаблоны, обнаруженные алгоритмами, с помощью средств просмотра в конструкторе интеллектуального анализа данных в SQL Server Data Tools. Дополнительные сведения см. в разделе "Просмотр моделей интеллектуального анализа данных". Кроме того, можно проверить, насколько хорошо модели создают прогнозы с помощью инструментов в конструкторе, таких как диаграмма лифта и матрица классификации. Чтобы проверить, связана ли модель с данными или может использоваться для вывода по общему населению, можно использовать статистический метод, называемый перекрестной проверкой , для автоматического создания подмножества данных и тестирования модели для каждого подмножества. Дополнительные сведения см. в разделе "Тестирование и проверка" (интеллектуальный анализ данных).

Если ни одна из моделей, созданных на шаге Сборка моделей, не работают хорошо, может потребоваться вернуться к предыдущему шагу процесса и переопределить проблему или повторно исследовать данные в исходном наборе данных.

Развертывание и обновление моделей

Последний шаг процесса интеллектуального анализа данных, как показано на следующем диаграмме, заключается в развертывании моделей, которые показали наилучшую эффективность в рабочей среде.

Шестой шаг в интеллектуальном анализе данных: развертывание моделей

После внедрения моделей добычи данных в производственную среду можно выполнять множество задач в зависимости от ваших потребностей. Ниже приведены некоторые задачи, которые можно выполнить.

  • Используйте модели для создания прогнозов, которые затем можно использовать для принятия бизнес-решений. SQL Server предоставляет язык DMX, который можно использовать для создания запросов прогнозирования, и инструмент Prediction Query Builder для помощи в создании этих запросов. Дополнительные сведения см. в справочнике по расширениям интеллектуального анализа данных (DMX).

  • Создайте запросы содержимого для получения статистики, правил или формул из модели. Дополнительные сведения см. в разделе "Запросы интеллектуального анализа данных".

  • Внедрение функций интеллектуального анализа данных непосредственно в приложение. Можно включить объекты управления анализом (AMO), содержащие набор объектов, которые приложение может использовать для создания, изменения, обработки и удаления структур интеллектуального анализа данных и моделей интеллектуального анализа данных. Кроме того, можно отправлять сообщения XML для анализа (XMLA) непосредственно в экземпляр служб Analysis Services.

  • Используйте Integration Services для создания пакета, в котором модель интеллектуального анализа данных используется для умного разделения входящих данных в несколько таблиц. Например, если база данных постоянно обновляется потенциальными клиентами, можно использовать модель интеллектуального анализа данных вместе со службами Integration Services, чтобы разделить входящие данные на клиентов, которые, скорее всего, приобретут продукт и клиентов, которые, скорее всего, не приобретут продукт.

  • Создайте отчет, который позволяет пользователям без посредников делать запросы к существующей модели интеллектуального анализа данных. Для получения дополнительной информации см. раздел Отчётные службы в SQL Server Data Tools (SSDT).

  • Обновите модели после проверки и анализа. Любое обновление требует повторной обработки моделей. Дополнительные сведения см. в разделе "Обработка объектов интеллектуального анализа данных".

  • Динамически обновляйте модели, так как больше данных входят в организацию, и вносить постоянные изменения, чтобы повысить эффективность решения, должно быть частью стратегии развертывания. Дополнительные сведения см. в разделе "Управление решениями и объектами интеллектуального анализа данных"

См. также

Решения для интеллектуального анализа данныхСредства для интеллектуального анализа данных