Тестирование и проверка (интеллектуальный анализ данных)

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

Проверка представляет собой процесс оценки соответствия моделей интеллектуального анализа данных фактическим данным. Важно выяснить качество и характеристики моделей интеллектуального анализа данных до их развертывания в рабочей среде.

В этом разделе представлены некоторые основные понятия, связанные с качеством модели, а также стратегии проверки модели, предоставляемые в Microsoft SQL Server Analysis Services. Общие сведения о том, как проверка моделей применяется в процессах интеллектуального анализа данных большего масштаба, см. в разделе Решения для интеллектуального анализа данных.

Методы тестирования и проверки моделей интеллектуального анализа данных

Оценить качество и характеристики моделей интеллектуального анализа данных можно многими способами.

  • Использование различных мер статистической достоверности с целью выявления проблем в данных или в модели.

  • Разбиение данных на обучающий и проверочный наборы для проверки точности прогнозов.

  • Обращение к специалистам с просьбой изучить результаты модели интеллектуального анализа данных и определить, имеют ли выявленные закономерности ценность для целевого бизнес-сценария.

Все эти методы используются в методологии интеллектуального анализа данных, и по мере создания, проверки и уточнения модели используются многократно в зависимости от выявленных проблем. Нет исчерпывающего правила, позволяющего однозначно судить о том, какие модели можно считать достаточно хорошими и достаточно ли имеющихся данных.

Определение критериев для проверки моделей интеллектуального анализа данных

Меры интеллектуального анализа данных можно выделить в категории точности, надежности и информативности.

Точность — это мера того, насколько выходные данные модели коррелируют с атрибутами предоставленных данных. Имеется несколько мер точности, но все они зависят от используемых данных. В реальности значения могут отсутствовать или быть приблизительными, а данные могут изменяться несколькими процессами. В частности, на этапе просмотра или развертывания можно принять решение о допущении определенного количества ошибок в данных, особенно если характеристики данных относительно однородны. Например, модель, прогнозирующая объемы продаж конкретного магазина на основе прошлых объемов продаж, может иметь строгую корреляцию и быть очень точной, даже если в магазине постоянно используется неверный метод бухгалтерского учета. Измерения точности могут быть сбалансированы оценкой надежности.

Надежность соответствует поведению модели интеллектуального анализа данных на различных наборах данных. Модель интеллектуального анализа данных считается надежной, если она формирует один и тот же тип прогнозов или находит одни и те же общие типы закономерностей, вне зависимости от предоставляемый проверочных данных. Так, например, модель, созданная для магазина, где используется неверный метод бухгалтерского учета, не подходит для других магазинов и поэтому не может считаться надежной.

Информативность объединяет в себе несколько метрик, позволяющих понять, насколько полезна информация, получаемая из модели. Например, модель интеллектуального анализа, в которой расположение магазина соотносится с объемами продаж, может быть точной и надежной, но не информативной, если ее нельзя применить после добавления других магазинов в том же расположении. Более того, она не содержит ответа на основной вопрос о том, почему объемы продаж в определенных местах больше, чем в других. Кроме того, успешная модель может оказаться на самом деле бессмысленной из-за взаимной корреляции в данных.

Средства для тестирования и проверки моделей интеллектуального анализа данных

SQL Server Analysis Services поддерживает несколько подходов к проверке решений интеллектуального анализа данных, поддерживая все этапы методологии тестирования интеллектуального анализа данных.

  • Разделение данных на обучающий и проверочный наборы.

  • Фильтрация моделей с целью проведения обучения и проверки для различных сочетаний одних и тех же исходных данных.

  • Измерение увеличения точности и повышения эффективности. Диаграмма точности прогнозов позволяет наглядно представить улучшение, полученное при использовании модели интеллектуального анализа данных, по сравнению со случайным предположением.

  • Выполнение перекрестной проверки наборов данных

  • Создание матрицы классификации. Эти диаграммы используется для сортировки верных и неверных предположений в таблице и позволяют быстро оценить точность модели в прогнозировании целевого значения.

  • Создание точечных диаграмм для оценки соответствия формулы регрессии.

  • Создание диаграмм роста прибыли , которые связывают модель интеллектуального анализа данных и финансовые доходы или расходы, позволяя тем самым оценивать ценность рекомендаций.

Эти показатели не предназначены для ответа на вопрос, решает ли модель интеллектуального анализа данных имеющиеся бизнес-задачи. Они скорее предлагают объективные цифры, которые позволяют оценивать надежность данных, используемых для прогнозирования, а также принимать решения о том, использовать ли данную итерацию в процессе разработки.

В подразделах этого раздела приведены общие сведения о каждом методе, в них также подробно описан процесс оценки точности моделей, выстраиваемых с помощью интеллектуального анализа данных SQL Server.

Разделы Ссылки
Узнайте, как создать набор проверочных данных, с помощью мастера или команд расширений интеллектуального анализа данных Обучающие и проверочные наборы данных
Узнайте, как проверить распределение и репрезентативность данных в структуре интеллектуального анализа данных Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных)
Сведения о типах диаграмм точности. Диаграмма точности прогнозов (службы Analysis Services — интеллектуальный анализ данных)

Диаграмма роста прибыли (службы Analysis Services — интеллектуальный анализ данных)

Точечная диаграмма (службы Analysis Services — интеллектуальный анализ данных)
Узнайте о создании матрицы классификации, которую иногда также называют матрицей несоответствий, для оценки нескольких условий. Матрица классификации (службы Analysis Services — интеллектуальный анализ данных)

См. также:

Средства интеллектуального анализа данных
Решения для интеллектуального анализа данных
Задачи и решения по тестированию и проверке (интеллектуальный анализ данных)