Сравнение и оптимизация ROC-кривых

Завершено

ROC-кривые позволяют сравнивать модели между собой и корректировать выбранные модели. Давайте обсудим, как и почему они выполняются.

Настройка модели

Наиболее очевидным способом использования ROC-кривой является выбор порога принятия решений, обеспечивающего максимальную эффективность. Вспомним, что модели дают ответ с определенной долей вероятности, например указывают, что объект является туристом с вероятностью 65 %. Порог принятия решения — это точка, выше которой объект определяется как "истина" (турист), а ниже которой как false (дерево). Если порог принятия решения составил 50%, то 65% будет назначено "true" (турист). Если порог принятия решения составил 70%, однако вероятность 65% будет слишком мала, и будет назначена "false" (дерево).

Мы видели в предыдущем упражнении, что при создании кривой ROC мы просто изменяем порог принятия решений и оцениваем, насколько хорошо работает модель. Это позволяет найти пороговое значение, обеспечивающее наилучший результат.

Обычно не удается найти одно пороговое значение, которое обеспечивает одновременно самый высокий коэффициент истинноположительных результатов (ИПР) и самый низкий коэффициент ложноположительных результатов (ЛПР). Это означает, что оптимальное пороговое значение зависит от того, что вы пытаетесь достичь. Например, в нашем сценарии очень важно иметь высокую положительную скорость, потому что если турист не определен и лавина возникает, команда не знает, чтобы спасти их. Есть компромисс, хотя: если ложноположительный показатель слишком высок, то спасательная команда может неоднократно быть отправлена для спасения людей, которые просто не существуют. В других ситуациях ложноположительный результат окажется важнее. Например, наука имеет низкую терпимость к ложноположительным результатам. Если бы ложноположительная скорость научных экспериментов была выше, было бы бесконечный шквал противоречивых утверждений, и было бы невозможно понять, что реально.

Сравнение моделей по площади под кривой

Кривые ROC можно использовать для сравнения моделей друг с другом, как и с функциями затрат. Кривая ROC для модели показывает, насколько хорошо она будет работать для различных пороговых значений принятия решений. В конце дня, что самое важное в модели заключается в том, как он будет выполняться в реальном мире, где существует только один порог принятия решений. Почему тогда мы хотим сравнить модели с использованием пороговых значений, которые мы никогда не будем использовать? На то есть две причины.

Во-первых, сравнение ROC-кривых в определенных случаях аналогично выполнению статистической проверки, которая не только показывает, что одна из моделей лучше показала себя в определенном наборе тестов, но и прогнозирует, насколько лучше она может работать в будущем. Мы не рассматриваем эту тему в рамках данного курса, но стоит помнить об этом.

Во-вторых, ROC-кривая в некоторой мере показывает, насколько модель зависит от выбора идеального порогового значения. Например, если наша модель хорошо работает только с пороговым значением 0,9, но плохо при любых других значениях, модель малоэффективна. Мы, вероятно, предпочли бы работать с моделью, которая работает достаточно хорошо для различных пороговых значений, зная, что если реальные данные, которые мы сталкиваемся, немного отличается от нашего тестового набора, производительность нашей модели не обязательно рухнет.

Как сравнивать ROC-кривые?

Проще всего численно сравнивать ROC-кривые, используя площадь под кривой. Это в буквальном смысле участок графика ниже кривой. Например, для нашей идеальной кривой из последнего упражнения это значение составляет 1:

Diagram showing a receiver operator characteristic curve graph using area under the curve.

Хотя наша модель, которая не лучше, чем шанс имеет область около 0,5:

Diagram showing a receiver operator characteristic curve graph with area under the curve at a sharp angle.

Чем более идеальна модель, тем больше эта область. Модель с большой площадью под кривой будет хорошо работать для разных пороговых значений, скорее всего, она правильно построена и обучена. И наоборот, модель с малой площадью под кривой (ближе к 0,5) будет работать плохо.