Regressione lineare multipla e R quadrato
In questa unità verrà confrontata la regressione lineare multipla con la regressione lineare semplice. Verrà anche esaminata una metrica denominata R2, comunemente usata per valutare la qualità di un modello di regressione lineare.
Regressione lineare multipla
La regressione lineare multipla modella la relazione tra diverse caratteristiche e una singola variabile. Matematicamente, è uguale alla regressione lineare semplice e in genere viene adattata usando la stessa funzione di costo, ma con più caratteristiche.
Anziché modellare una singola relazione, questa tecnica modella contemporaneamente più relazioni, che considera indipendenti l'una dall'altra. Ad esempio, se si stima quanto un cane malato diventa in base alla loro età e body_fat_percentage, troviamo due relazioni:
- In che modo l'età aumenta o diminuisce la malattia
- In che modo la "percentuale di grasso corporeo" aumenta o diminuisce la malattia
Se vengono usate solo due caratteristiche, è possibile visualizzare il modello come una superficie 2D piana, esattamente nello stesso modo in cui è possibile modellare la regressione lineare semplice come una linea. Questo approccio verrà esplorato nel prossimo esercizio.
La regressione lineare multipla contiene ipotesi
Il fatto che il modello si aspetti che le caratteristiche siano indipendenti è detto ipotesi del modello. Quando le ipotesi del modello non sono vere, il modello può eseguire previsioni fuorvianti.
Ad esempio, l'età probabilmente predice quanto si ammalano i cani, perché i cani più anziani si ammalano di più, insieme al fatto che i cani abbiano imparato a giocare a frisbee; i cani più anziani probabilmente sanno tutti come giocare a frisbee. Se nel modello si includessero l'età e sa giocare a frisbee come caratteristiche, è probabile che "sa giocare a frisbee" risulterebbe essere un buon predittore di una malattia e verrebbe sottovalutata l'importanza dell'età. Questo è alquanto assurdo perché il fatto di saper giocare a frisbee è improbabile che causi una malattia. Al contrario, anche razza canina potrebbe essere un buon predittore di malattia, ma non c'è motivo di credere che l'età possa prevedere una "razza canina", quindi dovrebbe essere sicuro includere entrambi in un modello.
Bontà dell'adattamento: R2
È noto che le funzioni di costo possono essere usate per valutare quanto un modello si adatti ai dati su cui è stato eseguito il training. I modelli di regressione lineare hanno una misura correlata speciale denominata R2 (R quadrato). L'R2 è un valore compreso tra 0 e 1 che indica il livello di adattamento di un modello di regressione lineare ai dati. Quando si parla di correlazioni forti, spesso si intende che il valore R2 è grande.
L'R2 usa la matematica oltre a ciò che si intende trattare in questo corso, ma può essere pensato in modo intuitivo. Si consideri l'esercizio precedente in cui è stata osservata la relazione tra età e temperatura corporea. Un R2 di 1 significa che potremmo usare anni per stimare perfettamente chi aveva una temperatura elevata e che aveva una temperatura bassa. Al contrario, un R2 di 0 significa che non c'era semplicemente alcuna relazione tra anni e temperatura.
La realtà è una via di mezzo. Il modello può prevedere la temperatura in qualche misura (quindi è meglio di R2 = 0), ma i punti sono leggermente diversi da questa previsione (quindi è inferiore a R2= 1).
L'R2 è solo metà della storia.
I valori R2 sono ampiamente accettati, ma non sono una misura perfetta che è possibile usare da sola. Le limitazioni sono quattro:
- A causa del modo in cui viene calcolato l'R2, più esempi sono disponibili, più alto è l'R2. Questo può portare a pensare che un modello sia migliore di un altro modello (identico), semplicemente perché i valori R2 sono stati calcolati usando quantità di dati diverse.
- I valori R2 non indicano il grado di funzionamento di un modello con dati nuovi e non visti in precedenza. Gli statistici risolvono questo problema calcolando una misura supplementare, denominata valore p, che non verrà trattata qui. In Machine Learning il modello viene spesso testato in modo esplicito in un altro set di dati.
- I valori R2 non indicano la direzione della relazione. Ad esempio, un valore R2 pari a 0,8 non indica se la linea è inclinata verso l'alto o verso il basso. Inoltre, non viene indicato quanto sia in pendenza la linea.
Vale anche la pena tenere presente che non esistono criteri universali per ciò che rende un valore R2 "abbastanza buono". Nella maggior parte della fisica, ad esempio, è improbabile che le correlazioni molto vicine a 1 siano considerate utili, ma quando si modellano sistemi complessi, i valori R2 bassi come 0,3 potrebbero essere considerati eccellenti.