Поделиться через


Измерение точности модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Службы SQL Server Службы Analysis Services предоставляют множество способов для определения точности моделей интеллектуального анализа данных.

  • Можно использовать диаграммы для визуального представления точности модели интеллектуального анализа данных. В диаграмме точности прогнозов сравнивается точность прогнозов каждой модели. Диаграмма роста прибыли отображает теоретический прирост прибыли, связанный с внедрением каждой модели. Точечная диаграмма сравнивает реальные значения с прогнозируемыми; она используется для моделей регрессии или других моделей, прогнозирующих непрерывные атрибуты с помощью непрерывных входных данных.

  • Матрицу классификации можно использовать для составления таблиц точных и неточных прогнозов.

  • Перекрестную проверку можно использовать для статистической проверки надежности модели интеллектуального анализа данных.

Дополнительные сведения см. в разделе Средства проверки точности построения моделей (службы Analysis Services — интеллектуальный анализ данных). Все типы диаграмм, описанные в этом разделе, можно создать программно, с помощью XML/A или объектов AMO. Дополнительные сведения о программировании решений служб Службы Analysis Services см. в разделе Руководство разработчика (службы Analysis Services — интеллектуальный анализ данных).

ПримечаниеПримечание

После установки относительной точности модели следует оценить ее результаты в контексте бизнес-задачи, для решения которой она была создана.

В данном разделе описывается основной рабочий процесс, с помощью которого в средах Business Intelligence Development Studio и Среда SQL Server Management Studio измеряется точность модели интеллектуального анализа данных. В зависимости от используемого типа модели интеллектуального анализа данных и выбранной диаграммы некоторые из параметров могут немного различаться, могут быть недоступными или могут быть настроены по умолчанию, однако общий процесс происходит следующим образом.

  1. Выберите модель или структуру для проверки.

  2. Выберите проверочные данные.

  3. Дополнительно можно применить к проверочным данным фильтры.

  4. Выберите тип диаграммы и откройте его в подходящем средстве просмотра.

  5. Дополнительно можно настроить диаграмму.

Пошаговое описание этой процедуры см. в разделе Как создать диаграмму точности для модели интеллектуального анализа данных.

Выбор модели или структуры

Обычно для каждой структуры интеллектуального анализа данных создается несколько моделей интеллектуального анализа данных, в каждой из которых используется собственный алгоритм или набор параметров. С помощью служб Службы Analysis Services можно легко выполнить проверку нескольких связанных моделей интеллектуального анализа данных в одной диаграмме. Однако в качестве выхода в диаграмме точности можно использовать только одну модель интеллектуального анализа данных.

В среде Business Intelligence Development Studio необходимо выбрать структуру интеллектуального анализа данных, а затем перейти на вкладку Диаграмма точности интеллектуального анализа, чтобы открыть область конструирования для диаграмм точности. В среде Среда SQL Server Management Studio необходимо щелкнуть правой кнопкой мыши структуру интеллектуального анализа данных и выбрать пункт Просмотр диаграммы точности прогнозов, чтобы открыть ту же область конструирования и построить любую диаграмму точности.

При добавлении в диаграмму нескольких моделей следует выбирать модели интеллектуального анализа данных, содержащие одинаковый прогнозируемый атрибут. Если создается диаграмма точности прогнозов, диаграмма роста прибыли, точечная диаграмма или матрица классификации, то выбрать модели, включенные в диаграмму, можно с помощью вкладки Выбор входа. Однако при создании отчета перекрестной проверки службы Службы Analysis Services проведут анализ всех моделей, имеющих один и тот же прогнозируемый атрибут.

Выбор проверочных данных

Прежде чем создать диаграмму точности прогнозов, диаграмму роста прибыли или точечную диаграмму, необходимо выбрать данные, которые будут использованы для оценки модели. Поскольку используемые для оценки данные оказывают значительное влияние на результаты оценки, в службах SQL Server 2008 Службы Analysis Services предусмотрены следующие параметры выбора проверочных данных.

  • Использование контрольной секции, определенной в качестве проверочного набора при создании структуры интеллектуального анализа данных. Использование части данных структуры интеллектуального анализа в качестве проверочных данных обеспечивает согласованность при измерении всех моделей структуры.

  • Определение в качестве проверочных данных внешнего источника данных.

  • Определение внешнего источника данных и применение фильтров для ограничения этих данных релевантным подмножеством вариантов. Задавая фильтр, можно выбрать проверочные данные, удовлетворяющие определенным условиям или содержащие особенно важные варианты.

  • Применение фильтра к обучающим вариантам, используемым в модели. Задавая фильтр модели, можно ограничить варианты подмножеством данных и обеспечить оценку конкретной модели посредством подобных данных.

При создании отчета перекрестной проверки в среде Business Intelligence Development Studio или Среда SQL Server Management Studio, по умолчанию службы Службы Analysis Services используют секцию контрольных данных, определенную для модели (если она существует). Если такая секция не была определена, то службы Службы Analysis Services используют весь набор обучающих вариантов.

При создании диаграммы точности прогнозов, диаграммы роста прибыли, точечной диаграммы или матрицы классификации в среде Business Intelligence Development Studio или Среда SQL Server Management Studio, данные для проверки моделей интеллектуального анализа данных задаются в конструкторе интеллектуального анализа данных на вкладке Выбор входных данных представления «Диаграмма точности интеллектуального анализа данных». Ниже приведены доступные параметры.

Использовать проверочные варианты модели интеллектуального анализа данных

Проверочные варианты модели интеллектуального анализа данных выбираются из тех же данных, что содержатся в структуре интеллектуального анализа, но для ограничения используемых при проверке вариантов к модели применяется фильтр. Фильтр модели представляет собой набор условий, создаваемый и хранимый вместе с моделью интеллектуального анализа данных. Поскольку условие фильтра сохраняется с моделью интеллектуального анализа данных, при обучении модели он применяется по умолчанию. Во время проверки модели можно использовать фильтр в том виде, в каком он сохранен, либо использовать для проверки другой набор данных и таким образом избежать применения фильтра модели. Чтобы изменить фильтр, применяемый к модели интеллектуального анализа данных, можно внести изменения в фильтр и повторно обработать модель. Кроме того, можно создать копию модели и построить на ее основе другой фильтр.

Дополнительные сведения о фильтрах моделей см. в разделе Создание фильтров для моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Описание создания фильтра для модели интеллектуального анализа данных см. в разделе Как применить фильтр к модели интеллектуального анализа данных.

Использовать проверочные варианты структуры интеллектуального анализа данных

Если при создании структуры интеллектуального анализа данных был определен набор проверочных данных, то с помощью этого параметра можно измерить точность путем задания либо процентной доли контрольных данных, либо максимального количества вариантов, используемых в качестве контрольных данных. Определение проверочного набора сохраняется со структурой. Поэтому проверочный набор можно использовать с любой моделью на основе этой структуры.

ПримечаниеПримечание

Применение фильтра непосредственно к контрольным данным структуры интеллектуального анализа невозможно. Однако если эти данные необходимо отфильтровать, то в качестве решения можно повторно использовать представление исходного источника данных в виде внешнего источника данных и применить фильтр к этому внешнему источнику данных.

Дополнительные сведения см. в разделе Секционирование данных на обучающий и проверочный наборы данных (службы Analysis Services — интеллектуальный анализ данных).

Задать другой набор данных

В SQL Server 2005 единственная возможность проверки точности моделей интеллектуального анализа заключалась в использовании набора внешних данных. В SQL Server 2008 этот режим сохранен, но теперь для этих внешних данных можно задать фильтр.

Для использования внешнего источника данных необходимо выполнить сопоставление любых столбцов внешних данных, которые надо использовать в качестве входных, со столбцами в модели интеллектуального анализа данных. Некоторые из столбцов можно не учитывать, однако во внешнем наборе данных должен содержаться по крайней мере один столбец, который можно сопоставить с прогнозируемым столбцом в модели интеллектуального анализа данных. В зависимости от модели может потребоваться сопоставление тех столбцов внешних данных, атрибуты которых необходимы для прогнозирования.

В конструкторе интеллектуального анализа данных входная таблица, в соответствии с которой должны проверяться модели, выбирается на вкладке Выбор входных данных и в диалоговом окне Задание сопоставления столбцов. При выборе входной таблицы столбцы в таблицах Структура интеллектуального анализа данных и Выбор входных таблиц автоматически сопоставляются друг с другом. Можно изменить эти сопоставления, щелкнув столбец в таблице Структура интеллектуального анализа данных и перетащив его в таблицу Выбор входных таблиц. Если входные данные содержат вложенную таблицу, то ее также можно включить с помощью ссылки Выбор вложенной таблицы.

ПримечаниеПримечание

Прогнозируемый столбец должен быть сопоставлен обязательно. Несопоставленные столбцы передаются в модель интеллектуального анализа данных как значения NULL.

После сопоставления соответствующих столбцов при необходимости можно указать целевое состояние прогнозируемого столбца. Если оставить состояние прогнозируемого столбца пустым, то диаграмма точности предсказаний предоставит прогноз о том, насколько хорошо выполняется модель независимо от состояния прогнозируемого столбца. Дополнительные сведения о различиях между созданием диаграмм точности прогнозов с или без заданного состояния прогнозируемого столбца см. в разделе Диаграмма точности прогнозов (службы Analysis Services — интеллектуальный анализ данных).

Предусмотрен также режим создания фильтра по внешним данным. Описание создания фильтра см. в разделе Как выбрать входные строки для диаграммы точности.

Флажок Синхронизировать столбцы и значения прогноза координирует прогнозируемые атрибуты во внешнем источнике данных и в модели интеллектуального анализа данных таким образом, что при обучении модели, даже если их имена отличаются, они все равно извлекаются из одного и того же прогнозируемого столбца. Использование этой функции целесообразно при наличии двух столбцов структуры интеллектуального анализа данных, которые указывают на одни и те же базовые данные, но были по-разному помечены.

Если снять флажок Синхронизировать прогнозируемые столбцы и значения, то можно выбрать любой действительный прогнозируемый столбец и значение. Результаты выводятся вместе, даже если они не имеют смысла. Этот режим можно отключить, если нужно сравнить два прогнозируемых атрибута, которые не сопоставлены явно с одним и тем же набором значений. Тем не менее следует помнить, что, с точки зрения точности, два атрибута не всегда являются сравнимыми. Например, модель, дискретизирующая входные данные по доходам по категориям «Высокий», «Средний» и «Низкий», можно сравнить с моделью, группирующей вход в диапазоны «150 000 и выше», «50 000–100 000» и «10 000–50 000». Однако, прежде чем сбросить этот флажок, необходимо проверить, сравнимы ли эти атрибуты.

Дополнительные сведения см. в разделахКак выбрать прогнозируемый столбец для диаграммы точности интеллектуального анализа данных, Использование средств интеллектуального анализа данных

Фильтрация данных

Данные, используемые для обучения и проверки моделей интеллектуального анализа данных, можно фильтровать следующими способами.

  • Создать фильтр, хранящийся вместе с моделью.

  • Применить фильтр к внешнему источнику данных.

Суть создания определения фильтра — это создание предложения WHERE для входных данных. Если фильтруется набор входных данных, используемый для оценки модели, то критерий фильтра преобразуется в инструкцию Transact-SQL и применяется к входной таблице во время создания диаграммы. В результате количество проверочных вариантов можно значительно сократить.

Наоборот, когда к модели интеллектуального анализа данных применяется фильтр, именно критерий фильтра переводится в инструкцию расширений интеллектуального анализа данных и применяется к отдельной модели. Когда к модели применяется фильтр, для обучения модели используется только подмножество исходных данных. Если набор проверочных данных был определен во время создания структуры, то к используемым для обучения вариантам модели относятся только те варианты, которые входят в набор обучающих данных структуры интеллектуального анализа и удовлетворяют условиям фильтра. Кроме того, если установить параметр Использовать проверочные варианты модели интеллектуального анализа, то проверочными будут только те варианты, которые входят в набор проверочных данных структуры интеллектуального анализа и которые удовлетворяют условиям фильтра. Кроме того, условия фильтра применяются и к запросам детализации по вариантам модели.

Однако если набор контрольных данных определен не был, то к проверочным вариантам модели относятся все варианты набора данных, удовлетворяющие условиям фильтра.

Таким образом, у нескольких моделей, даже если они основаны на одной и той же структуре интеллектуального анализа данных, могут быть различные фильтры, и, как результат, для обучения и проверки в них можно использовать разные данные. Если при создании диаграммы точности был установлен параметр Использовать проверочные варианты модели интеллектуального анализа данных, то следует помнить, что общее количество вариантов в проверочных и обучающих наборах может сильно различаться в зависимости от проверяемых моделей.

ПримечаниеПримечание

Если фильтр добавляется к существующей модели интеллектуального анализа данных или если изменяются критерии фильтра, то для просмотра действий фильтра необходимо выполнить повторную обработку модели.

Чтобы просмотреть фактически использованные обучающие варианты, для содержимого необходимо создать запрос расширений интеллектуального анализа данных:

SELECT * from <model>.CASES WHERE IsTrainingCase()

или

SELECT * from <model>.CASES WHERE IsTestCase()

Чтобы сравнить эти варианты с вариантами структуры, создайте следующий запрос расширений интеллектуального анализа данных к содержимому.

SELECT * FROM <structure>.CASES WHERE IsTestCase()
ПримечаниеПримечание

Чтобы запустить запрос содержимого для вариантов модели, в модели необходимо включить детализацию (Drillthrough).

Сведения о видах применяемых фильтров и оценке критериев фильтра см. в разделе Синтаксис и примеры фильтра модели (службы Analysis Services — интеллектуальный анализ данных).

Выбор типа диаграммы и просмотр диаграммы

В зависимости от выбранного типа диаграммы может появиться возможность дополнительной настройки параметров, возможность просмотра диаграммы или возможность скопировать диаграмму в буфер обмена и работать с данными в Excel.

Примечание.   Диаграммы и их определения не сохраняются. Если закрыть окно с диаграммой, то диаграмму придется создать повторно.

Диаграмма точности прогнозов

Чтобы просмотреть результаты, после настройки параметров для модели и для проверочных данных перейдите на вкладку Диаграмма точности прогнозов. Также можно скопировать диаграмму в буфер обмена или осуществлять просмотр отдельных линий трендов или точек данных в условных обозначениях интеллектуального анализа данных.

Дополнительные сведения см. в разделах Диаграмма точности прогнозов (службы Analysis Services — интеллектуальный анализ данных) и Вкладка «Диаграмма точности прогнозов» (представление диаграммы точности интеллектуального анализа данных).

Диаграмма роста прибыли

После настройки параметров моделей и проверочных данных перейдите на вкладку Диаграмма точности прогнозов, выберите в списке Тип диаграммы пункт Диаграмма роста прибыли для установки параметров диаграммы роста прибыли и нажмите кнопку ОК для просмотра результатов. Диалоговое окно Настройки диаграммы роста прибыли можно использовать неограниченное количество раз для проверки влияния различных параметров и повторного отображения диаграммы. В условных обозначениях интеллектуального анализа данных содержатся подробные сведения о предполагаемой прибыли для каждой модели. Кроме того, диаграмму и содержимое условных обозначений интеллектуального анализа данных можно скопировать в буфер обмена для последующей работы с ними в Excel.

Дополнительные сведения см. в разделах Диаграмма роста прибыли (службы Analysis Services — интеллектуальный анализ данных) и Диалоговое окно «Настройки диаграммы роста прибыли» (представление диаграммы точности интеллектуального анализа данных).

Точечная диаграмма

Если был выбран подходящий тип модели, то при переходе на вкладку Диаграмма точности прогнозов будет автоматически установлен тип Точечная диаграмма и отображена точечная диаграмма. Дальнейшая настройка невозможна. Кроме того, диаграмму можно скопировать в буфер обмена и вставить ее как графическое изображение в Excel или другое приложение.

Дополнительные сведения см. в разделе Точечная диаграмма (службы Analysis Services — интеллектуальный анализ данных).

Матрица классификации

При работе с матрицей классификации следует использовать вкладку Выбор входа для выбора моделей и проверочных данных, а затем перейти на вкладку Матрица классификации для просмотра результатов. Содержимое матрицы классификации одинаково для всех типов моделей, его настройка не поддерживается. Кроме того, данные, содержащиеся в диаграмме, можно скопировать в буфер обмена для последующей работы с ними в Excel.

Дополнительные сведения см. в разделах Матрица классификации (службы Analysis Services — интеллектуальный анализ данных) или Вкладка «Матрица классификации» (представление диаграммы точности интеллектуального анализа данных).

отчет перекрестной проверки.

При работе с отчетом перекрестной проверки, после выбора в обозревателе решений необходимой структуры или модели интеллектуального анализа данных перейдите на вкладку Перекрестная проверка, настройте все нужные параметры, а затем нажмите кнопку Получить результаты для создания отчета. Дальнейшая настройка невозможна. Отчет перекрестной проверки имеет одинаковый формат для всех типов моделей; настраивать его нельзя. Однако содержимое отчета отличается в зависимости от типа модели, анализ которой был произведен, и от типа данных прогнозируемого атрибута. Результаты отчета можно скопировать в буфер обмена для последующей работы с ними в Excel.

Дополнительные сведения см. в разделах Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных) или Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных).