Проверка моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Проверка представляет собой процесс оценки соответствия моделей интеллектуального анализа данных фактическим данным. Важно выяснить качество и характеристики моделей интеллектуального анализа данных до их развертывания в рабочей среде.
Оценить качество и характеристики моделей интеллектуального анализа данных можно несколькими способами. Первый способ предполагает использование различных мер статистической допустимости с целью выявления проблем в данных или в модели. Второй способ для проверки точности прогнозов предусматривает разбиение данных на обучающий и проверочный наборы. И, наконец, можно обратиться к бизнес-экспертам с просьбой изучить результаты модели интеллектуального анализа данных и определить, значимы ли выявленные закономерности для целевого бизнес-сценария. Все эти методы используются в методологии интеллектуального анализа данных, и по мере создания, проверки и уточнения модели используются многократно в зависимости от выявленных проблем.
В данном разделе представлены основные понятия, связанные с качеством модели, а также приведены сведения о стратегиях оценки моделей, предусмотренных в службах MicrosoftSQL Server 2008Analysis Services. Общие сведения о том, как проверка моделей применяется в процессах интеллектуального анализа данных большего масштаба, см. в разделе Проекты интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Критерии измерения моделей интеллектуального анализа данных
Большинство методов оценки моделей интеллектуального анализа данных не дают прямых ответов на имеющиеся вопросы, но содержат метрики, использование которых позволяет найти нужное решение. Нет исчерпывающего правила, позволяющего однозначно судить о том, какие модели можно считать достаточно хорошими и достаточно ли имеющихся данных.
Меры интеллектуального анализа данных можно выделить в категории точности, надежности и информативности.
Точность, надежность и информативность
Точность — это мера того, насколько выходные данные модели коррелируют с атрибутами предоставленных данных. Имеется несколько мер точности, но все они зависят от используемых данных. В реальности значения могут отсутствовать или быть приблизительными, а данные могут изменяться несколькими процессами. В частности, на этапе просмотра или развертывания можно принять решение о допущении определенного количества ошибок в данных, особенно если характеристики данных относительно однородны. Например, модель, прогнозирующая объемы продаж конкретного магазина на основе прошлых объемов продаж, может иметь строгую корреляцию и быть очень точной, даже если в магазине постоянно используется неверный метод бухгалтерского учета. Измерения точности могут быть сбалансированы оценкой надежности.
Надежность соответствует поведению модели интеллектуального анализа данных на различных наборах данных. Модель интеллектуального анализа данных считается надежной, если она формирует один и тот же тип прогнозов или находит одни и те же общие типы закономерностей, вне зависимости от предоставляемый проверочных данных. Так, например, модель, созданная для магазина, где используется неверный метод бухгалтерского учета, не подходит для других магазинов и поэтому не может считаться надежной.
Информативность объединяет в себе несколько метрик, позволяющих понять, насколько полезна информация, получаемая из модели. Например, модель интеллектуального анализа, в которой расположение магазина соотносится с объемами продаж, может быть точной и надежной, но не информативной, если ее нельзя применить после добавления других магазинов в том же расположении. Более того, она не содержит ответа на основной вопрос о том, почему объемы продаж в определенных местах больше, чем в других. Кроме того, успешная модель может оказаться на самом деле бессмысленной из-за взаимной корреляции в данных.
Платформа интеллектуального анализа данных Майкрософт
CRISP-DM — это хорошо известная методология, описывающая шаги по определению, разработке и реализации проектов интеллектуального анализа данных. Однако CRISP-DM является абстрактной архитектурой: она не предлагает инструкций по определению масштабов и графика проекта. Чтобы наилучшим образом удовлетворить потребности бизнес-клиентов, заинтересованных в интеллектуальном анализе данных, но не знающих, с чего начать, а также опытных разработчиков .NET-приложений, не знакомых с интеллектуальным анализом данных, в корпорации Майкрософт был разработан метод реализации проектов интеллектуального анализа данных с полноценной системой оценки.
Дополнительные сведения см. на веб-странице Ресурсы Майкрософт по интеллектуальному анализу данных.
Подходы к проверке моделей интеллектуального анализа данных в службах SQL Server Analysis Services
В SQL Server 2008 есть несколько подходов к проверке решений интеллектуального анализа данных с поддержкой всех этапов методологии разработки интеллектуального анализа данных.
Разделение данных на обучающие и проверочные наборы
Секционирование данных на обучающий и проверочный наборы представляет собой утвержденный метод подготовки данных для оценки. Некоторая часть данных из набора данных для обучения резервируется для проверки, а остальные данные используются для обучения. Готовая модель используется для создания прогнозов по проверочному набору. Поскольку данные обучающего набора случайным образом выбраны из тех же данных, что и используются для обучения, показатели точности, полученные в результате проверки, вряд ли будут затронуты несоответствием данных, а потому наилучшим образом отображают характеристики модели.
Дополнительные сведения см. в разделе Секционирование данных на обучающий и проверочный наборы данных (службы Analysis Services — интеллектуальный анализ данных).
Перекрестная проверка моделей интеллектуального анализа данных
В процессе перекрестной проверки наборы данных разбиваются на перекрестные разделы меньшего размера, после чего на основе разделов создается несколько моделей, используемых для проверки полного набора данных. Затем в службах Analysis Services для каждой секции формируются подробные показатели точности. Используя эти сведения, можно улучшить качество отдельной модели или выявить модели, наилучшим образом подходящие определенным наборам данных.
Дополнительные сведения см. в разделе Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных).
Создание диаграмм точности модели интеллектуального анализа данных
В службах MicrosoftSQL ServerAnalysis Services имеются средства, позволяющие составлять графики точности прогнозов, проверять модели относительно новых или существующих данных, а также сравнивать несколько моделей в диаграммах и отчетах.
Диаграмма точности прогнозов позволяет наглядно представить улучшение, полученное при использовании модели интеллектуального анализа данных, по сравнению со случайным предположением. Можно также составить диаграмму роста прибыли, связывающую с моделью интеллектуального анализа данных финансовые доходы или расходы, или точечные диаграммы для моделей регрессии. Матрица классификации используется для сортировки верных и неверных предположений в таблице и позволяет быстро оценить точность модели в прогнозировании целевого значения.
Дополнительные сведения см. в разделе Средства проверки точности построения моделей (службы Analysis Services — интеллектуальный анализ данных).
Чтобы выполнить обучение и проверку различных сочетаний одних и тех же исходных данных, можно отфильтровать модель различными способами. Дополнительные сведения см. в разделе Измерение точности модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Просмотр содержимого и вариантов модели и запросы к ним
В службах Analysis Services для просмотра и исследования модели предусмотрен ряд средств просмотра интеллектуального анализа данных. Кроме того, можно создавать запросы к содержимому, позволяющие лучше разобраться в модели и выявить непредвиденные ошибки в собственном подходе или в данных. Когда запрос содержимого создается при помощи расширений интеллектуального анализа данных, можно получить статистические сведения о закономерностях, обнаруженных моделью интеллектуального анализа данных, или извлечь варианты, поддерживающие определенные закономерности, выявленные этой моделью. Возможна детализация, вплоть до базовой структуры интеллектуального анализа данных, позволяющая найти или представить подробные сведения, не включенные в модель, либо выполнить необходимые действия с обнаруженными в данных закономерностями.
Дополнительные сведения о запросах к содержимому моделей см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Дополнительные сведения о просмотре содержимого модели см. в разделе Просмотр модели интеллектуального анализа данных.
Дополнительные сведения об интерпретации содержимого модели для каждого алгоритма см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).