Porovnání a optimalizace křivek ROC

Dokončeno

Křivky charakteristiky operátoru přijímače (ROC) nám umožňují porovnat modely s druhým a vyladit náš vybraný model. Pojďme si probrat, jak a proč se to dělá.

Ladění modelu

Nejobjasnější použití křivky ROC je zvolit prahovou hodnotu rozhodnutí, která poskytuje nejlepší výkon. Vzpomeňte si, že naše modely nám poskytují pravděpodobnosti, jako je 65% pravděpodobnost, že vzorek je pěší turistika. Prahová hodnota rozhodnutí je bod nad tím, kdy je vzorek přiřazený jako true (pěší turistika) nebo pod kterým je přiřazený false (strom). Pokud by naše rozhodovací prahová hodnota byla 50 %, pak by bylo 65 % přiřazeno k hodnotě true (pěší turistika). Pokud by ale naše rozhodovací prahová hodnota byla 70 %, byla by pravděpodobnost 65 % příliš malá a byla by přiřazena k hodnotě false (strom).

Viděli jsme v předchozím cvičení, že při vytváření křivky ROC právě měníme prahovou hodnotu rozhodnutí a posuzujeme, jak dobře model funguje. Když to uděláme, můžeme najít prahovou hodnotu, která poskytuje optimální výsledky.

Obvykle neexistuje jedna prahová hodnota, která poskytuje nejlepší pravdivě pozitivní rychlost (TPR) i nižší falešně pozitivní míru (FPR). To znamená, že optimální prahová hodnota závisí na tom, čeho se snažíte dosáhnout. V našem scénáři je například velmi důležité mít vysokou skutečnou pozitivní míru, protože pokud není identifikovaný turista a dojde k lavině, tým je nebude vědět, aby je zachránil. Existuje však kompromis: pokud je falešně pozitivní míra příliš vysoká, může být záchranný tým opakovaně odeslán k záchraně lidí, kteří prostě neexistují. V jiných situacích se falešně pozitivní míra považuje za důležitější. Například věda má nízkou toleranci pro falešně pozitivní výsledky. Pokud by byla falešně pozitivní míra vědeckých experimentů vyšší, mohlo by dojít k nekonečnému kolísání protichůdných tvrzení a bylo by nemožné získat představu o tom, co je skutečné.

Porovnání modelů s AUC

Křivky ROC můžete použít k porovnání modelů s ostatními, stejně jako u nákladových funkcí. Křivka ROC pro model ukazuje, jak dobře bude fungovat pro různé rozhodovací prahové hodnoty. Na konci dne je nejdůležitější, jak bude model fungovat v reálném světě, kde je jen jedna rozhodovací prahová hodnota. Proč bychom pak chtěli porovnat modely s využitím prahových hodnot, které nikdy nepoužijeme? Existují dvě odpovědi.

Za prvé, porovnání křivek ROC určitým způsobem je jako provedení statistického testu, který nám říká, že jeden model na této konkrétní testovací sadě lépe fungoval, ale jestli bude pravděpodobně v budoucnu fungovat lépe. Toto je mimo rozsah tohoto výukového materiálu, ale je třeba mít na paměti.

Za druhé křivka ROC ukazuje, jak je model závislý na dokonalé prahové hodnotě. Pokud například náš model funguje dobře jenom v případě, že máme rozhodovací prahovou hodnotu 0,9, ale velmi nad nebo pod touto hodnotou, není to dobrý návrh. Pravděpodobně bychom raději pracovali s modelem, který funguje přiměřeně dobře pro různé prahové hodnoty a věděl, že pokud se data z reálného světa, která narazíme, mírně liší od naší testovací sady, výkon našeho modelu se nemusí nutně sbalit.

Jak porovnat roc?

Nejjednodušší způsob, jak porovnat roc číselně, je použití oblasti pod křivkou (AUC). Doslova je to oblast grafu, která je pod křivkou. Náš dokonalý model z posledního cvičení má například AUC 1:

Diagram showing a receiver operator characteristic curve graph using area under the curve.

I když náš model, který neměl větší šanci, má přibližně 0,5:

Diagram showing a receiver operator characteristic curve graph with area under the curve at a sharp angle.

Čím je model dokonalejší, tím větší je tato oblast. Pokud máme model s velkým AUC, víme, že funguje dobře pro řadu prahových hodnot, takže pravděpodobně má dobrou architekturu a byla dobře natrénována. Naproti tomu model s malou AUC (blíže k hodnotě 0,5) nefunguje dobře.