Co jsou klasifikační modely?

Dokončeno

Klasifikační modely se používají k rozhodování nebo přiřazování položek do kategorií. Na rozdíl od regresních modulů, které výstupují souvislá čísla, jako jsou výšky nebo váhy, výstup klasifikačních modelů výstupní logické hodnoty – buď true nebo false– nebo kategorická rozhodnutí, například apple, banananebo cherry.

Existuje mnoho typů klasifikačních modelů. Některé fungují podobně jako klasické regresní modely, zatímco jiné jsou zásadně odlišné. Jeden z nejlepších modelů, které se na začátku naučíte, se nazývá logistická regrese.

Co je logistická regrese?

Logistická regrese je typ klasifikačního modelu, který funguje podobně jako lineární regrese. Rozdíl mezi touto a lineární regresí je tvar křivky. I když jednoduchá lineární regrese odpovídá datům přímka, modely logistické regrese odpovídají křivkě ve tvaru s:

diagram znázorňující ukázkový graf logistické regrese

Logistická regrese je lepší pro odhad logických výsledků než lineární regrese, protože logistická křivka vždy vytváří hodnotu mezi 0 (false) a 1 (true). Cokoli mezi těmito dvěma hodnotami lze považovat za pravděpodobnost.

Řekněme například, že se snažíme předpovědět, jestli by dnes mohlo dojít k lavině. Pokud náš logistický regresní model poskytuje hodnotu 0,3, odhaduje 30% pravděpodobnost laviny.

Převod výstupů na kategorie

Vzhledem k tomu, že logistická regrese nám dává tyto pravděpodobnosti, a ne jednoduché hodnoty true/false, musíme provést další kroky pro převod výsledku na kategorii. Nejjednodušší způsob, jak tento převod provést, je použít prahovou hodnotu. Například v následujícím grafu je naše prahová hodnota nastavená na hodnotu 0,5. Tato prahová hodnota znamená, že jakákoli hodnota y nižší než 0,5 se převede na false (levé dolní pole) a všechny hodnoty nad 0,5 se převedou na true – vpravo nahoře.

diagram znázorňující graf logistické funkce

Při pohledu na graf vidíme, že když je funkce nižší než 5, pravděpodobnost je menší než 0,5 a převede se na false. Hodnoty funkcí, které jsou vyšší než 5, poskytují pravděpodobnosti větší než 0,5 a jsou převedeny na true.

Je velmi důležitá, že logistická regrese nemusí být omezena na pravdivý nebo nepravdivý výsledek – dá se použít také tam, kde existují tři nebo více potenciálních výsledků, například rain, snownebo sun. Tento typ výsledku vyžaduje trochu složitější nastavení označované jako multinomická logistická regrese. I když během několika dalších cvičení neprocvičujeme multinomické logistické regrese, je vhodné zvážit situace, kdy potřebujete vytvořit předpovědi, které nejsou binární.

Je také vhodné poznamenat, že logistická regrese může použít více než jednu vstupní funkci: více o tomto případě brzy.