Поделиться через


Меры в отчете перекрестной проверки

В процессе перекрестной проверки службы Analysis Services разбивают данные в структуре интеллектуального анализа данных на несколько перекрестных разделов, после чего выполняется итерационное тестирование структур и всех соответствующих моделей интеллектуального анализа данных. На основании такого анализа для структуры и каждой модели выводится набор стандартных точных мер.

Отчет содержит общие сведения о количестве сверток в данных, сумму данных в каждой свертке и набор общих показателей, описывающих распределение данных. Сравнивая общие показатели, созданные для каждого разреза, можно оценить надежность структуры или модели.

Службы Analysis Services также отображают набор подробных мер для модели интеллектуального анализа данных. Такие меры зависят от типа модели и типа анализируемого атрибута, например дискретный или непрерывный.

В данном разделе предоставляется список мер, которые содержатся в отчете Перекрестная проверка, и разъяснения к ним. Дополнительные сведения о том, как вычисляется каждая мера, см. в разделе Формулы перекрестной проверки.

Перечень мер в отчете перекрестной проверки

В следующей таблице перечислены меры, используемые в отчете перекрестной проверки. Меры группируются с помощью типа проверки, который находится в левой столбце следующей таблицы. В правом столбце перечислены наименования мер в порядке, в котором они появляются в отчете, и краткое разъяснение к ним.

Тип проверки

Меры и описания

Кластеризация

Меры, применяемые к моделям кластеризации

Правдоподобие варианта

Эта мера обычно указывает на вероятность принадлежности варианта определенному кластеру.

Для перекрестной проверки оценки суммируются и затем делятся на количество вариантов, таким образом получается среднее правдоподобие кластерного варианта.

Классификация

Меры, применяемые к моделям классификации

Истинный положительный результат

Истинный отрицательный результат

Ложный положительный результат

Ложный положительный результат

Число строк или значений в секции, в которой прогнозируемое состояние совпадает с целевым, а прогнозируемая вероятность выше указанного порога состояния.

Варианты, в которых отсутствуют значения для целевого атрибута, не учитываются, то есть могут учитываться не все значения.

Совпадение или неудача

Число строк или значений в секции, в которой прогнозируемое состояние совпадает с целевым, а прогнозируемая вероятность больше 0.

Правдоподобие

Меры правдоподобия применяются к нескольким типов моделей.

Точность прогноза

Отношение фактической вероятности прогноза к граничной вероятности в проверочных вариантах. Исключаются строки с отсутствующими значениями целевого атрибута.

Данная мера обычно показывает степень улучшения вероятности конечного результата при использовании модели.

Корень среднеквадратичной погрешности

Отношение квадратного корня из средней погрешности для всех вариантов в секции к количеству вариантов, за исключением строк, в которых нет значения для целевого атрибута.

Корень среднеквадратичной погрешности является общепринятой оценкой для моделей прогнозирования. Оценка усредняет остатки для каждого варианта, чтобы выработать единственный индикатор погрешности модели.

Логарифмическая оценка

Сумма логарифмов действительной вероятности для каждого случая, деленная на число строк во входном наборе данных, за исключением строк, в которых нет значения для целевого атрибута.

Поскольку вероятность выражается десятичной дробью, логарифмическая оценка всегда отрицательные. Чем ближе число к 0, тем выше оценка. Тогда как необработанные оценки могут содержать крайне нерегулярные и асимметричные распределения, логарифмическая оценка подобна процентным долям.

Оценка

Меры, которые применяются только к моделям оценки, прогнозирующим непрерывный числовой атрибут.

Корень среднеквадратичной погрешности

Средняя погрешность при сравнении спрогнозированного значения с фактическим.

Корень среднеквадратичной погрешности является общепринятой оценкой для моделей прогнозирования. Оценка усредняет остатки для каждого варианта, чтобы выработать единственный индикатор погрешности модели.

Средняя абсолютная погрешность

Средняя погрешность при сравнении спрогнозированного значения с фактическим, рассчитываемая как абсолютная сумма погрешностей.

Средняя абсолютная погрешность помогает понять, насколько сделанные прогнозы приближены к настоящим значениям. Меньшая оценка означает, что прогнозы были более точными.

Логарифмическая оценка

Сумма логарифмов действительной вероятности для каждого случая, деленная на число строк во входном наборе данных, за исключением строк, в которых нет значения для целевого атрибута.

Поскольку вероятность выражается десятичной дробью, логарифмическая оценка всегда отрицательные. Чем ближе число к 0, тем выше оценка. Тогда как необработанные оценки могут содержать крайне нерегулярные и асимметричные распределения, логарифмическая оценка подобна процентным долям.

Статистические вычисления

Агрегатные меры отображают дисперсию в результатах по каждой секции.

Среднее

Средние значения секций по конкретным мерам.

Стандартное отклонение

Среднее отклонение из среднего арифметического по конкретной мере, с учетом всех секций модели.

Для перекрестной проверки более высокое значение этой оценки предполагает существенные различия между свертками.

См. также

Основные понятия

Тестирование и проверка (интеллектуальный анализ данных)