O que são modelos de classificação?

Concluído

Os modelos de classificação são usados para tomar decisões ou atribuir itens em categorias. Ao contrário dos módulos de regressão, que produzem números contínuos, como alturas ou pesos, os modelos de classificação produzem valores booleanos — ou truefalse— ou decisões categóricas, como apple, bananaou cherry.

Existem muitos tipos de modelos de classificação. Alguns funcionam de forma semelhante aos modelos clássicos de regressão, enquanto outros são fundamentalmente diferentes. Um dos melhores modelos para aprender inicialmente é chamado de regressão logística.

O que é regressão logística?

A regressão logística é um tipo de modelo de classificação que funciona de forma semelhante à regressão linear. A diferença entre isso e a regressão linear é a forma da curva. Enquanto a regressão linear simples ajusta uma linha reta aos dados, os modelos de regressão logística se ajustam a uma curva em forma de s:

Diagrama mostrando um gráfico de exemplo de regressão logística.

A regressão logística é melhor para estimar os resultados booleanos do que a regressão linear, porque a curva logística sempre produz um valor entre 0 (falso) e 1 (verdadeiro). Você pode pensar em qualquer coisa entre esses dois valores como uma probabilidade.

Por exemplo, digamos que estamos tentando prever se uma avalanche pode ocorrer hoje. Se nosso modelo de regressão logística nos der o valor de 0,3, então ele estima que há uma probabilidade de 30% de uma avalanche.

Convertendo saídas em categorias

Como a regressão logística nos dá essas probabilidades, em vez de simples valores verdadeiros/falsos, precisamos tomar medidas extras para converter o resultado em uma categoria. A maneira mais simples de fazer essa conversão é aplicar um limite. Por exemplo, no gráfico a seguir, nosso limite é definido como 0,5. Este limiar significa que qualquer valor y inferior a 0,5 é convertido em falso (caixa inferior esquerda) e qualquer valor acima de 0,5 é convertido em verdadeiro (caixa superior direita).

Diagrama mostrando um gráfico de função logística.

Olhando para o gráfico, podemos ver que quando o recurso está abaixo de 5, a probabilidade é inferior a 0,5 e é convertida em falsa. Valores de características acima de 5 resultam em probabilidades superiores a 0,5 e são convertidos em verdadeiro.

É notável que a regressão logística não precisa ser limitada a um resultado verdadeiro/falso; Você também pode usá-lo quando houver três ou mais resultados potenciais, como rain, snowou sun. Este tipo de desfecho requer uma configuração um pouco mais complexa, chamada regressão logística multinomial. Embora não pratiquemos a regressão logística multinomial durante os próximos exercícios, vale a pena considerar em situações em que você precisa fazer previsões que não são binárias.

Também vale a pena notar que a regressão logística pode usar mais de um recurso de entrada: mais sobre este caso em breve.