Regressione polinomiale
Finora sono stati esaminati solo modelli di regressione lineare, modelli che possono essere modellati come linee rette. I modelli di regressione possono tuttavia funzionare praticamente con qualsiasi altro tipo di relazione.
Che cos'è la regressione polinomiale?
La regressione polinomiale modella le relazioni come un particolare tipo di curva. I polinomi sono una famiglia di curve, che vanno dalle forme semplici a quelle complesse. Più parametri sono presenti nell'equazione (modello), più complessa può essere la curva.
Ad esempio, un polinomio con due parametri è semplicemente una linea retta:
y = intercetta + B1*x
Un polinomio a tre parametri ha un'unica piega in esso:
y = intercetta + B1*x + B2 * x2
Un polinomio con quattro parametri può avere due curve:
y = intercetta + B1*x + B2 * x2 + B3 * x3
Polinomi e altre curve
Esistono molti tipi di curve, ad esempio curve di log e curve logistiche (a forma di s), che è possibile usare con la regressione.
Uno dei principali vantaggi della regressione polinomiale è che può essere usata per esaminare tutti i tipi di relazioni. Ad esempio, la regressione polinomiale può essere usata per relazioni negative all'interno di un determinato intervallo di valori di funzionalità, ma positive all'interno di altri. Può essere usata anche quando l'etichetta (valore y) non ha un limite massimo teorico.
Lo svantaggio principale delle curve polinomiali è che spesso estrapolano male. In altre parole, se si prova a prevedere valori maggiori o minori rispetto ai dati di training, i polinomi possono prevedere valori irrealisticamente estremi. Un altro svantaggio è che le curve polinomiali sono facilmente soggette a overfitting. Ciò significa che il rumore nei dati può modificare la forma della curva molto più dei modelli più semplici come la regressione lineare semplice.
Le curve possono essere usate con più caratteristiche?
Si è visto come la regressione multipla possa adattarsi a diverse relazioni lineari contemporaneamente. Non è tuttavia necessario limitarsi alle relazioni lineari. È possibile usare curve di tutti i tipi per queste relazioni, dove appropriato. È tuttavia consigliabile non usare curve, ad esempio polinomi, con più caratteristiche dove non sono necessarie. Ciò è dovuto al fatto che le relazioni possono risultare molto complesse, il che rende più difficile comprendere i modelli e valutare se verranno eseguite previsioni che non hanno senso, da un punto di vista reale.