O que são modelos de classificação?
Os modelos de classificação são usados para tomar decisões ou atribuir itens em categorias. Ao contrário dos módulos de regressão, que produzem números contínuos, como alturas ou pesos, os modelos de classificação produzem valores booleanos — ou true
false
— ou decisões categóricas, como apple
, banana
ou cherry
.
Existem muitos tipos de modelos de classificação. Alguns funcionam de forma semelhante aos modelos clássicos de regressão, enquanto outros são fundamentalmente diferentes. Um dos melhores modelos para aprender inicialmente é chamado de regressão logística.
O que é regressão logística?
A regressão logística é um tipo de modelo de classificação que funciona de forma semelhante à regressão linear. A diferença entre isso e a regressão linear é a forma da curva. Enquanto a regressão linear simples ajusta uma linha reta aos dados, os modelos de regressão logística se ajustam a uma curva em forma de s:
A regressão logística é melhor para estimar os resultados booleanos do que a regressão linear, porque a curva logística sempre produz um valor entre 0 (falso) e 1 (verdadeiro). Você pode pensar em qualquer coisa entre esses dois valores como uma probabilidade.
Por exemplo, digamos que estamos tentando prever se uma avalanche pode ocorrer hoje. Se nosso modelo de regressão logística nos der o valor de 0,3, então ele estima que há uma probabilidade de 30% de uma avalanche.
Convertendo saídas em categorias
Como a regressão logística nos dá essas probabilidades, em vez de simples valores verdadeiros/falsos, precisamos tomar medidas extras para converter o resultado em uma categoria. A maneira mais simples de fazer essa conversão é aplicar um limite. Por exemplo, no gráfico a seguir, nosso limite é definido como 0,5. Este limiar significa que qualquer valor y inferior a 0,5 é convertido em falso (caixa inferior esquerda) e qualquer valor acima de 0,5 é convertido em verdadeiro (caixa superior direita).
Olhando para o gráfico, podemos ver que quando o recurso está abaixo de 5, a probabilidade é inferior a 0,5 e é convertida em falsa. Valores de características acima de 5 resultam em probabilidades superiores a 0,5 e são convertidos em verdadeiro.
É notável que a regressão logística não precisa ser limitada a um resultado verdadeiro/falso; Você também pode usá-lo quando houver três ou mais resultados potenciais, como rain
, snow
ou sun
. Este tipo de desfecho requer uma configuração um pouco mais complexa, chamada regressão logística multinomial. Embora não pratiquemos a regressão logística multinomial durante os próximos exercícios, vale a pena considerar em situações em que você precisa fazer previsões que não são binárias.
Também vale a pena notar que a regressão logística pode usar mais de um recurso de entrada: mais sobre este caso em breve.