Поделиться через


Формулы перекрестной проверки

Если создается отчет перекрестной проверки, он содержит меры точности для каждой модели, которые зависят от типа модели интеллектуального анализа данных (т. е. алгоритма, который использовался для ее создания), типа данных прогнозируемого атрибута и значения прогнозируемого атрибута (если есть).

В этом разделе указаны меры, используемые в отчете перекрестной проверки, и способ их вычисления.

Описание разбивки мер точности по типам моделей см. в разделе Меры в отчете перекрестной проверки.

Формулы мер перекрестной проверки

ПримечаниеПримечание

Внимание! Эти меры точности вычисляются для каждого целевого атрибута. Указывать целевое значение для каждого атрибута необязательно. Если значение целевого атрибута для набора данных не задано, используется особое значение — так называемое отсутствующее значение. Строки, в которых отсутствуют значения, не подсчитываются при вычислении меры точности для конкретного целевого атрибута. Следует подчеркнуть, что оценки вычисляются отдельно для каждого атрибута, поэтому, если значения для целевого атрибута заданы, а для других атрибутов отсутствуют, это не влияет на оценку целевого атрибута.

Мера

Для каких объектов

Реализация

Истинный положительный результат

Дискретный атрибут, значение указано

Подсчет вариантов, удовлетворяющих этим условиям.

  • Вариант содержит целевое значение.

  • Модель предсказала, что вариант содержит целевое значение.

Истинный отрицательный результат

Дискретный атрибут, значение указано

Подсчет вариантов, удовлетворяющих этим условиям.

  • Вариант не содержит целевого значения.

  • Модель предсказала, что вариант не содержит целевого значения.

Ложный положительный результат

Дискретный атрибут, значение указано

Подсчет вариантов, удовлетворяющих этим условиям.

  • Фактическое значение равно целевому.

  • Модель предсказала, что вариант содержит целевое значение.

Ложный отрицательный результат

Дискретный атрибут, значение указано

Подсчет вариантов, удовлетворяющих этим условиям.

  • Фактическое значение не равно целевому.

  • Модель предсказала, что вариант не содержит целевого значения.

Соответствует/не соответствует

Дискретный атрибут, цель не указана

Подсчет вариантов, удовлетворяющих этим условиям.

  • Проверка будет считаться пройденной успешно, если спрогнозированное состояние с наибольшей вероятностью совпадает с входным состоянием и вероятность больше значения Порог состояния.

  • В противном случае проверка завершается ошибкой.

Точность прогноза

Дискретный атрибут. Можно указать целевое значение, но это не является необходимым.

Средняя логарифмическая вероятность для всех строк со значениями целевого атрибута, где логарифмическая вероятность для каждого варианта вычисляется как Log(ActualProbability/MarginalProbability). Для вычисления среднего значения сумма значений логарифма правдоподобия делится на число строк входного набора данных, исключая строки с отсутствующими значениями целевого атрибута.

Величина сдвига может быть положительной или отрицательной. Положительное значение указывает на то, что эффективность модели выше, чем у случайного предположения.

Логарифмическая оценка

Дискретный атрибут. Можно указать целевое значение, но это не является необходимым.

Сумма логарифмов фактической вероятности для каждого случая, деленная на число строк во входном наборе данных, исключая строки с отсутствующими значениями целевого атрибута.

Поскольку вероятность выражается десятичной дробью, логарифмическая оценка всегда отрицательные. Чем ближе число к 0, тем выше оценка.

Правдоподобие варианта

Кластер

Сумма кластерных оценок правдоподобия для всех случаев, деленная на число случаев в секции, исключая строки с отсутствующими значениями целевого атрибута.

Средняя абсолютная погрешность

Непрерывный атрибут

Сумма абсолютных значений погрешности для всех случаев в секции, деленная на число случаев в секции.

Корень среднеквадратичной погрешности

Непрерывный атрибут

Среднеквадратичное отклонение для секции.

Среднеквадратичное отклонение

Дискретный атрибут. Можно указать целевое значение, но это не является необходимым.

Квадратный корень из среднего значения квадратов дополнений к оценке вероятности, деленный на число случаев в секции, исключая строки с отсутствующими значениями целевого атрибута.

Среднеквадратичное отклонение

Дискретный атрибут, цель не указана.

Квадратный корень из среднего значения квадратов дополнений к оценке вероятности, деленный на число случаев в секции, исключая случаи с отсутствующими значениями целевого атрибута.

См. также

Основные понятия

Тестирование и проверка (интеллектуальный анализ данных)

Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных)