Calculer une corrélation linéaire

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Calcule la corrélation linéaire entre des valeurs de colonne dans un jeu de données

Catégorie : Fonctions statistiques

Notes

S’applique à : Machine Learning Studio (classique) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

Cet article explique comment utiliser le module De corrélation linéaire de calcul dans Machine Learning Studio (classique), pour calculer un ensemble de coefficients de corrélation Pearson pour chaque paire possible de variables dans le jeu de données d’entrée.

Le coefficient de corrélation Pearson, parfois appelé test R de Pearson, est une valeur statistique qui mesure la relation linéaire entre deux variables. En examinant les valeurs de coefficient, vous pouvez déduire quelque chose sur la force de la relation entre les deux variables et s’ils sont corrélés positivement ou négativement corrélés.

Guide pratique pour configurer la corrélation linéaire

Avant de calculer le coefficient de corrélation, il existe certaines conditions préalables, telles que le nettoyage de vos données et la vérification que la relation entre les variables est appropriée pour ce module. Vous devez également supprimer ou imputer des valeurs manquantes.

Les restrictions suivantes s’appliquent lors de l’utilisation de ce module :

Le module De corrélation linéaire de calcul peut traiter uniquement les valeurs numériques. Tous les autres types de valeurs, y compris les valeurs manquantes, les valeurs non numériques et les valeurs catégorielles, sont traités comme des valeurs non numériques (NaN).
Une corrélation de Pearson est calculée pour toutes les colonnes numériques du jeu de données qui sont transmises en tant qu'entrée. Veillez à exclure les colonnes appropriées pour cette analyse.
La corrélation linéaire de calcul ne peut pas être utilisée avec des données qui ont des valeurs manquantes.

Étape 1 : Déterminer la linéarité

Si les colonnes que vous testez ne sont pas censées avoir une relation linéaire, il n’y a aucun point dans la génération de ce coefficient. Il est donc judicieux de tester d’abord les colonnes, de voir s’ils ont le bon type de données et le bon type de distribution en général.

Il existe différentes façons de déterminer si la relation entre les colonnes est à peu près linéaire :

Créez un nuage de points des variables dans Studio (classique) à l’aide de l’option Visualiser sur le jeu de données. Cliquez sur l’une des colonnes de variable numérique, développez les visualisations, puis cliquez sur comparer. Sélectionnez une variable différente et un nuage de points est généré automatiquement. Si un autre type de tracé est généré, il signifie qu’au moins une colonne a un type de données différent (non numérique).
Calculez une équation de régression pour les deux variables. Il existe de nombreux packages R qui prennent en charge cela, que vous pouvez charger et utiliser dans le module Execute R Script .

Étape 2 : Nettoyer les données

Vous devez supprimer ou remplir des valeurs manquantes, supprimer ou clipper des valeurs hors norme et vérifier que les colonnes ont le type de données approprié.

Veillez à vérifier les espaces réservés et à remplacer cette valeur par d’autres valeurs appropriées avant d’utiliser ce module. Si des naNs ont été insérés pour des valeurs manquantes lorsque le jeu de données a été chargé à partir de la source, cela peut entraîner une erreur. Les valeurs d’espace réservé telles que 999 ou -1 peuvent également entraîner des résultats incorrects.

Pour préparer vos données, vous pouvez utiliser ces modules :

Vous pouvez ajuster le type de données des colonnes à l’aide de Modifier les métadonnées. Assurez-vous que les colonnes que vous souhaitez analyser sont marquées comme colonnes de caractéristiques.

Étape 3 : Générer le coefficient

Ajoutez le module De corrélation linéaire de calcul à votre expérience. Vous trouverez ce module dans la catégorie Fonctions statistiques dans Machine Learning Studio (classique).
Ajoutez le jeu de données que vous souhaitez analyser.
Nous vous recommandons d’ajouter un module Sélectionner des colonnes dans le jeu de données entre votre jeu de données et le module De corrélation linéaire de calcul , pour supprimer les colonnes inutiles. Configurez le module Sélectionner des colonnes dans le jeu de données pour obtenir uniquement les deux colonnes numériques pour lesquelles vous souhaitez calculer des coefficients.

Sinon, le module De corrélation linéaire de calcul peut générer de nombreuses colonnes de NaNs.
Il n’existe aucun paramètre à définir pour ce module. Toutefois, elle échoue si les colonnes que vous passez, car les entrées ne répondent pas aux exigences.
Exécutez l’expérience.

Résultats pour deux colonnes

Compte tenu de deux colonnes de caractéristiques, le module De corrélation linéaire de calcul retourne le coefficient de corrélation scalaire Pearson product moment (exemple). Le coefficient de corrélation Pearson (souvent indiqué sous forme de r) s’étend en valeur de +1 à -1.

+1 indique une relation linéaire positive forte
-1 indique une corrélation linéaire négative forte
0 indique aucune relation linéaire entre les deux variables.

L’interprétation des coefficients dépend beaucoup du problème que vous modélisez et des variables que vous étudiez. Il est donc important de comprendre le contexte des données lors de la création de rapports et de l’interprétation du coefficient de corrélation de Pearson.

Si vous êtes certain que les variables ne sont pas liées et que le coefficient de corrélation de Pearson est fortement positif (r.5 > ou donc), vous devez examiner plus loin.
Si vous utilisez la corrélation linéaire sur deux variables que vous savez être parfaitement corrélées et que les valeurs de coefficient ne sont pas ce que vous attendez, cela peut indiquer un problème dans les données.

Résultats pour plus de deux colonnes

Compte tenu d’une matrice (autrement dit, plus de deux colonnes de caractéristiques), le module De corrélation linéaire de calcul retourne un ensemble de corrélations de moments de produit Pearson entre chaque paire de colonnes de caractéristiques.

Par conséquent, le résultat est une table n x n contenant les coefficients pour chaque combinaison des colonnes n . Si des colonnes ne répondent pas aux critères, une valeur NaN (« pas un nombre ») est retournée.

Par exemple, supposons que vous avez passé les deux colonnes wheel-base numériques et curb-weight une colonne make catégorielle (à partir du jeu de données du prix automobile). Le résultat est une table de coefficients 3x3 pour toutes les combinaisons possibles des colonnes d’entrée :

`make`	`wheel-base`	`curb-weight`
Nan	Nan	Nan
Nan	1	0.776386
Nan	0.776386	1

Dans ce tableau, les lignes sont comprises pour représenter chacune des variables,makewheel-base et curb-weight, dans cet ordre.

La valeur r de la corrélation de wheel-base lui-même est 1.
La valeur r de la corrélation de à curb-weight est wheel-base 0,776386.
Toutes les corrélations impliquant le résultat de colonne make dans NaN, y compris la corrélation avec elle-même, car make il s’agit d’une fonctionnalité de chaîne.

Nous vous recommandons de supprimer des colonnes non numériques pour éviter les tables complexes avec de nombreuses valeurs sans signification.

Exemples

Pour voir comment ce module est utilisé dans les expériences Machine Learning, consultez la galerie Azure AI :

Traitement et analyse des données : cet exemple illustre plusieurs techniques pour modifier vos données. La corrélation linéaire de calcul est utilisée pour identifier les colonnes de caractéristiques potentielles.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Informations d’implémentation

Si la colonne transmise en entrée contient des valeurs scalaires, les tableaux d'entrée (x et y) sont traités comme des vecteurs, et la corrélation du produit des moments de Pearson est calculée comme suit :

linear correlation formula

Dans cette formule, chaque tableau contient n éléments et les moyens des échantillons x et y sont respectivement μx et μy.

Dans le cas d'une matrice, une matrice de données, (X) est entrée, dans laquelle chaque colonne représente un vecteur de valeurs. La matrice de données doit être n-by-m. La sortie est la matrice m-by-m, R définie par

formula for linear correlation

Dans cette formule, μx représente la valeur moyenne de la colonne xi. Les éléments en I,j sont toujours égaux à 1, car ils représentent la corrélation d'un vecteur avec lui-même.

Entrées attendues

Nom	Type	Description
Dataset	Table de données	Jeu de données d'entrée

Sorties

Nom	Type	Description
Jeu de données de résultats	Table de données	Matrice de corrélations

Exceptions

Exception	Description
Erreur 0003	Cette exception se produit si une ou plusieurs entrées sont null ou vide.
Erreur 0020	Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit.
Erreur 0021	Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit.

Pour obtenir la liste des erreurs spécifiques aux modules Studio (classique), consultez Machine Learning codes d’erreur.

Pour obtenir la liste des exceptions d’API, consultez Machine Learning codes d’erreur de l’API REST.

Voir aussi

Fonctions statistiques
Liste alphabétique des modules

Partager via