Régression linéaire multiple et R-carré
Dans cette unité, nous allons contraster plusieurs régressions linéaires avec une régression linéaire simple. Nous allons également examiner une métrique appelée R2, qui est couramment utilisée pour évaluer la qualité d’un modèle de régression linéaire.
Régression linéaire multiple
La régression linéaire multiple modélise la relation entre plusieurs caractéristiques et une variable unique. Mathématiquement, il n'y a pas de différence avec la régression linéaire simple, et elle est généralement ajustée à l'aide de la même fonction de coût, mais avec plus de caractéristiques.
Au lieu de modéliser une seule relation, cette technique modélise simultanément plusieurs relations, qu’elle traite comme indépendantes les unes des autres. Par exemple, si nous prédisons comment un chien est malade en fonction de son âge et de son body_fat_percentage, nous trouvons deux relations :
- Comment l'âge accentue ou diminue les symptômes de la maladie
- Comment l'indice de masse corporelle accentue ou diminue les symptômes de la maladie
Si nous utilisons uniquement deux caractéristiques, nous pouvons visualiser notre modèle sous la forme d’un plan (une surface plane en 2D), tout comme nous pouvons modéliser une régression linéaire simple sous la forme d’une droite. C'est ce que nous allons étudier dans l'exercice suivant.
La régression linéaire multiple s'appuie sur des hypothèses
Le fait que le modèle s’attend à ce que les fonctionnalités soient indépendantes est appelée hypothèse de modèle. Quand les hypothèses du modèle se révèlent fausses, le modèle peut effectuer des prédictions trompeuses.
Par exemple, l’âge prédit probablement comment les chiens malades deviennent, parce que les chiens plus âgés sont plus malades, ainsi que si les chiens ont été enseignés comment jouer frisbee ; les chiens plus âgés savent probablement tous comment jouer frisbee. Si nous incluons l’âge et knows_frisbee à notre modèle en tant que fonctionnalités, il est probable que knows_frisbee soit identifié comme un bon prédicteur d'une maladie et que cela sous-estime l'importance de l’âge. Cela est un peu absurde, car le fait de savoir jouer au frisbee ne rend pas malade. En revanche, dog_breed pourrait également être un bon prédicteur de maladie, mais il n’y a aucune raison de croire que l’âge prédit dog_breed, de sorte qu’il serait sûr d’inclure les deux dans un modèle.
Bonté d’ajustement : R2
Nous savons que les fonctions de coût peuvent être utilisées pour évaluer l’ajustement d’un modèle par rapport aux données à partir desquelles il a été entraîné. Les modèles de régression linéaire ont une mesure spéciale associée appelée R2 (R-squared). R2 est une valeur comprise entre 0 et 1 qui nous indique comment un modèle de régression linéaire correspond aux données. Lorsque les gens parlent de corrélations fortes, ils signifient souvent que la valeur R2 était importante.
R2 utilise des mathématiques au-delà de ce que nous avons l’intention de couvrir dans ce cours, mais nous pouvons le penser intuitivement. Examinons l’exercice précédent, où nous avons examiné la relation entre l’âge et core_temperature. Un R2 sur 1 signifierait que nous pourrions utiliser des années pour prédire parfaitement qui avait une température élevée et qui avait une basse température. En revanche, une R2 sur 0 signifierait qu’il n’y avait simplement aucune relation entre les années et la température.
La réalité se situe entre les deux. Notre modèle peut prédire la température à un certain degré (il est donc préférable de R2 = 0), mais les points varient de cette prédiction quelque peu (donc il est inférieur à R2=1).
R2 est seulement la moitié de l’histoire.
Les valeurs R2 sont largement acceptées, mais ne sont pas une mesure parfaite que nous pouvons utiliser en isolation. Elles présentent quatre inconvénients :
- En raison de la façon dont R2 est calculé, plus nous avons d’échantillons, plus le R2 est élevé. Cela peut nous conduire à penser qu’un modèle est mieux qu’un autre modèle (identique), simplement parce que les valeurs R2 ont été calculées à l’aide de différentes quantités de données.
- Les valeurs R2 ne nous indiquent pas comment un modèle fonctionne avec de nouvelles données précédemment invisibles. Les statistiques l’ont surmonté en calculant une mesure supplémentaire, appelée p-value, que nous ne couvrirons pas ici. Dans le cadre du Machine Learning, nous testons souvent explicitement notre modèle sur un autre jeu de données.
- Les valeurs R2 ne nous indiquent pas la direction de la relation. Par exemple, une valeur R2 de 0,8 ne nous indique pas si la ligne est inclinée vers le haut ou vers le bas. Elle ne nous indique pas non plus le degré d'inclinaison de la droite.
Il vaut également la peine de garder à l’esprit qu’il n’existe aucun critère universel pour ce qui rend une valeur R2 « assez bonne ». Par exemple, dans la plupart des physiques, les corrélations qui ne sont pas très proches de 1 sont peu susceptibles d’être considérées comme utiles, mais lorsque vous modélisez des systèmes complexes, les valeursR2 aussi faibles que 0,3 peuvent être considérées comme excellentes.