Поделиться через


Проверка точности с использованием Диаграмм лифта (руководство по интеллектуальному анализу данных уровня "Базовый")

На вкладке "Диаграмма точности майнинга данных" в проектировщике интеллектуального анализа данных вы можете оценить, насколько хорошо каждая модель делает прогнозы и сравнить результаты одной модели с результатами других моделей. Этот метод сравнения называется диаграммой лифта. Как правило, прогнозная точность модели интеллектуального анализа данных измеряется либо по подъёму, либо по точности классификации. В этом руководстве мы будем использовать только диаграмму лифта.

В этой теме вы выполните следующие задачи:

Выбор входных данных

Первым шагом в тестировании точности моделей интеллектуального анализа данных является выбор источника данных, который будет использоваться для тестирования. Вы проверите, насколько хорошо модели работают на данных тестирования, а затем будете использовать их с внешними данными.

Выбор набора данных

  1. Перейдите на вкладку Диаграмма точности Data Mining в конструкторе интеллектуального анализа данных в SQL Server Data Tools (SSDT) и выберите вкладку Выбор входных данных.

  2. В групповом блоке "Выбор набора данных для диаграммы точности", выберите "Использовать тестовые случаи структуры интеллектуального анализа данных". Это данные тестирования, которые вы отложили при создании структуры анализа данных.

    Дополнительные сведения о других параметрах см. в разделе "Выбор типа диаграммы точности" и "Задать параметры диаграммы".

Настройка параметров диаграммы точности

Чтобы создать диаграмму точности, необходимо определить три аспекта:

  • Какие модели следует включить в диаграмму точности?

  • Какой прогнозируемый атрибут вы хотите измерить? Некоторые модели могут иметь несколько целевых объектов, но каждая диаграмма может измерять только один результат за раз.

    Чтобы использовать столбец как предсказуемое имя столбца в диаграмме точности, у столбцов должен быть тип использования Predict или Predict Only. Кроме того, тип контента целевого столбца должен быть либо Discrete, либо Discretized. Другими словами, вы не можете измерять точность по непрерывным числовым выходным данным с помощью диаграммы лифта.

  • Вы хотите измерить общую точность модели или ее точность при прогнозировании определенного значения (например, [Покупатель велосипеда] = "Да").

Создание диаграммы лифта

  1. На вкладке "Ввод" конструктора интеллектуального анализа данных в разделе "Выберите прогнозируемые столбцы модели для отображения на подъемной кривой" установите флажок для Синхронизации Столбцов и Значений Прогнозирования.

  2. В столбце “Предсказуемое название столбца” убедитесь, что для каждой модели выбран покупатель велосипедов.

  3. В столбце "Показать " выберите каждую из моделей.

    По умолчанию выбираются все модели в структуре анализа данных. Вы можете не включать модель, но для этого руководства оставьте все модели выбранными.

  4. В столбце "Прогнозирование значения" выберите 1. Одно и то же значение автоматически заполняется для каждой модели с одинаковым прогнозируемым столбцом.

  5. Перейдите на вкладку "Диаграмма лифта ".

    При нажатии вкладки выполняется запрос прогнозирования для получения прогнозов для тестовых данных, а результаты сравниваются с известными значениями. Результаты отображаются на графе.

    Если вы указали конкретный целевой результат с помощью параметра «Прогнозное значение», диаграмма повышения отображает результаты случайных предположений и результаты идеальной модели.

    • Линия случайных догадок показывает, насколько точно модель будет предсказывать без использования каких-либо данных: то есть, разделение 50-50 между двумя исходами. Диаграмма лифта помогает визуализировать, насколько лучше работает ваша модель по сравнению со случайной догадкой.

    • Идеальная линия модели представляет верхнюю границу точности. В нем показано максимальное возможное преимущество, достигнутое, если модель всегда прогнозировала точно.

    Созданные вами модели анализа данных обычно находятся между этими двумя крайними точками. Любое улучшение от случайного предположения считается приростом.

  6. Используйте условные обозначения, чтобы найти цветные линии, представляющие идеальную модель и случайную угадываемую модель.

    Вы заметите, что модель TM_Decision_Tree обеспечивает наибольшее улучшение, превосходя как кластеризационную модель, так и наивную байесовскую модель.

Подробное описание диаграммы лифта, аналогичной созданной на этом занятии, см. в статье "Диаграмма лифта" (службы Analysis Services — интеллектуальный анализ данных).

Следующая задача на занятии

Тестирование отфильтрованной модели (учебник по интеллектуальному анализу данных уровня "Базовый")

См. также

Диаграмма эффективности (службы Analysis Services — анализ данных)
Вкладка "Лифт-диаграмма" (представление графика точности модели)