Поделиться через


Тестирование и валидация (интеллектуальный анализ данных)

Проверка — это процесс оценки того, насколько хорошо модели интеллектуального анализа данных работают с реальными данными. Важно проверить на достоверность модели интеллектуального анализа данных, понимая их качество и характеристики, перед развертыванием в производственной среде.

В этом разделе представлены некоторые основные понятия, связанные с качеством модели, и описываются стратегии проверки модели, предоставляемые в Службах Microsoft Analysis Services. Общие сведения о том, как проверка модели вписывается в более крупный процесс интеллектуального анализа данных, см. в разделе "Решения интеллектуального анализа данных".

Методы тестирования и валидации моделей интеллектуального анализа данных

Существует множество подходов для оценки качества и характеристик модели интеллектуального анализа данных.

  • Используйте различные меры статистической действительности, чтобы определить, существуют ли проблемы в данных или в модели.

  • Разделите данные на наборы обучения и тестирования, чтобы проверить точность прогнозов.

  • Попросите экспертов в области бизнеса оценить результаты модели интеллектуального анализа данных, чтобы определить, имеют ли обнаруженные закономерности значение в рассматриваемом бизнес-сценарии.

Все эти методы полезны в методологии интеллектуального анализа данных и используются итеративно при создании, тестировании и уточнении моделей для решения конкретной проблемы. Ни одно комплексное правило не может сказать вам, когда модель достаточно хороша или когда у вас достаточно данных.

Определение критериев валидации моделей интеллектуального анализа данных

Меры интеллектуального анализа данных обычно делятся на категории точности, надежности и полезности.

Точность — это мера того, насколько хорошо модель сопоставляет результат с атрибутами в предоставленных данных. Существуют различные меры точности, но все меры точности зависят от используемых данных. В действительности значения могут быть отсутствующими или приблизительными, или данные могут быть изменены несколькими процессами. Особенно на этапе изучения, и разработки вы можете принять определенное количество ошибок в данных, особенно если данные довольно однородны по своим характеристикам. Например, модель, прогнозирующая продажи для определенного магазина на основе прошлых продаж, может быть сильно коррелирована и очень точной, даже если это магазин последовательно использовал неправильный метод учета. Таким образом, измерения точности должны быть сбалансированы с помощью оценок надежности.

Надежность оценивает способ выполнения модели интеллектуального анализа данных на различных наборах данных. Модель интеллектуального анализа данных надежна, если она создает один и тот же тип прогнозов или находит одинаковые общие типы шаблонов независимо от предоставленных тестовых данных. Например, модель, созданная для магазина, который использовал неправильный метод учета, не будет хорошо обобщаться для других магазинов и поэтому не будет надежной.

Полезность включает различные метрики, которые говорят о том, предоставляет ли модель полезную информацию. Например, модель интеллектуального анализа данных, которая сопоставляет расположение магазина с продажами, может быть как точной, так и надежной, но не может быть полезной, так как вы не можете обобщить этот результат путем добавления дополнительных магазинов в одном расположении. Кроме того, он не отвечает на фундаментальный бизнес-вопрос о том, почему некоторые места имеют больше продаж. Вы также можете обнаружить, что модель, которая кажется успешной на самом деле, бессмысленна, поскольку она основана на кросс-корреляциях в данных.

Средства тестирования и проверки моделей интеллектуального анализа данных

Службы Analysis Services поддерживают несколько подходов к проверке решений интеллектуального анализа данных, поддерживая все этапы методологии тестирования интеллектуального анализа данных.

  • Разделение данных на тестовый и обучающий наборы.

  • Фильтрация моделей для обучения и тестирования различных сочетаний одинаковых исходных данных.

  • Измерение подъема и прироста. Диаграмма лифта — это метод визуализации улучшения, которое вы получаете от использования модели интеллектуального анализа данных при сравнении с случайным предположением.

  • Выполнение перекрестной проверки наборов данных

  • Создание матриц классификации. Эти диаграммы сортируют хорошие и плохие угадывание в таблицу, чтобы быстро и легко оценить, насколько точно модель прогнозирует целевое значение.

  • Создание точечной диаграммы для оценки соответствия формулы регрессии.

  • Создание диаграмм прибыли , которые связывают финансовые выгоды или затраты с использованием модели интеллектуального анализа данных, чтобы оценить стоимость рекомендаций.

Эти метрики не стремятся ответить на вопрос, решает ли модель анализа данных ваш бизнес-вопрос; вместо этого они предоставляют объективные измерения, которые можно использовать для оценки надежности ваших данных для прогнозной аналитики и для принятия решения о целесообразности использования конкретной итерации в процессе разработки.

В разделах этого раздела представлен обзор каждого метода и описан процесс измерения точности моделей, создаваемых с помощью интеллектуального анализа данных SQL Server.

Темы Ссылки.
Узнайте, как настроить тестовый набор данных с помощью мастера или команд DMX. Обучающие и тестирующие наборы данных
Узнайте, как протестировать распределение и репрезентативность данных в структуре анализа данных Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных)
Сведения о типах диаграмм точности, предоставляемых в службах SQL Server 2014 Analysis Services (SSAS). Диаграмма эффективности (службы Analysis Services — анализ данных)

Диаграмма доходности (Службы анализа - интеллектуальный анализ данных)

Точечная диаграмма (службы Analysis Services — интеллектуальный анализ данных)
Узнайте, как создать матрицу классификации, иногда называемую матрицей ошибок, для оценки количества истинно и ложно положительных и отрицательных классификаций. Матрица классификации (Analysis Services — анализ данных)

См. также

Средства интеллектуального анализа данных
Решения интеллектуального анализа данных
Задачи тестирования, валидации и инструкции (интеллектуальный анализ данных)