Partager via


Algorithme de régression logistique Microsoft

La régression logistique est une technique statistique connue qui est utilisée pour modéliser les résultats binaires.

Il existe différentes implémentations de régression logistique dans la recherche de statistiques, à l’aide de différentes techniques d’apprentissage. L’algorithme Microsoft Logistic Regression a été implémenté à l’aide d’une variante de l’algorithme Microsoft Neural Network. Cet algorithme partage la plupart des qualités des réseaux neuronaux, mais est plus facile à entraîner.

L’un des avantages de la régression logistique est que l’algorithme est hautement flexible, prenant n’importe quel type d’entrée et prend en charge plusieurs tâches analytiques différentes :

  • Utilisez des données démographiques pour faire des prédictions sur les résultats, tels que le risque d’une certaine maladie.

  • Explorez et pondez les facteurs qui contribuent à un résultat. Par exemple, recherchez les facteurs qui influencent les clients pour effectuer une visite répétée dans un magasin.

  • Classifiez les documents, les messages électroniques ou d’autres objets qui ont de nombreux attributs.

Exemple :

Considérez un groupe de personnes qui partagent des informations démographiques similaires et qui achètent des produits de la société Adventure Works. En modélisant les données relatives à un résultat spécifique, comme l’achat d’un produit cible, vous pouvez voir comment les informations démographiques contribuent à la probabilité d’acheter le produit cible.

Fonctionnement de l’algorithme

La régression logistique est une méthode statistique bien connue pour déterminer la contribution de plusieurs facteurs à une paire de résultats. L’implémentation de Microsoft utilise un réseau neuronal modifié pour modéliser les relations entre les entrées et les sorties. L’effet de chaque entrée sur la sortie est mesuré et les différentes entrées sont pondérées dans le modèle terminé. La régression logistique du nom provient du fait que la courbe de données est compressée à l’aide d’une transformation logistique, afin de réduire l’effet des valeurs extrêmes. Pour plus d’informations sur l’implémentation et sur la façon de personnaliser l’algorithme, consultez La référence technique de l’algorithme de régression logistique Microsoft.

Données requises pour les modèles de régression logistique

Lorsque vous préparez des données à utiliser pour l’apprentissage d’un modèle de régression logistique, vous devez comprendre les exigences de l’algorithme particulier, y compris la quantité de données nécessaires et la façon dont les données sont utilisées.

Les exigences d’un modèle de régression logistique sont les suivantes :

Une seule colonne clé Chaque modèle doit contenir une colonne numérique ou texte qui identifie de manière unique chaque enregistrement. Les clés composées ne sont pas autorisées.

Colonnes d’entrée Chaque modèle doit contenir au moins une colonne d’entrée qui contient les valeurs utilisées comme facteurs d’analyse. Vous pouvez avoir autant de colonnes d’entrée que vous le souhaitez, mais en fonction du nombre de valeurs dans chaque colonne, l’ajout de colonnes supplémentaires peut augmenter le temps nécessaire pour entraîner le modèle.

Au moins une colonne prévisible Le modèle doit contenir au moins une colonne prédictible de n’importe quel type de données, y compris les données numériques continues. Les valeurs de la colonne prédictible peuvent également être traitées comme des entrées dans le modèle, ou vous pouvez spécifier qu’elles sont utilisées uniquement pour la prédiction. Les tables imbriquées ne sont pas autorisées pour les colonnes prévisibles, mais peuvent être utilisées comme entrées.

Pour plus d’informations sur les types de contenu et les types de données pris en charge pour les modèles de régression logistique, consultez la section Exigences de l’algorithme de régression logistique Microsoft.

Affichage d’un modèle de régression logistique

Pour explorer le modèle, vous pouvez utiliser la visionneuse de réseau neuronal Microsoft ou la visionneuse d’arborescence de contenu générique Microsoft.

Lorsque vous affichez le modèle à l’aide de la visionneuse de réseau neuronal Microsoft, Analysis Services vous montre les facteurs qui contribuent à un résultat particulier, classés par leur importance. Vous pouvez choisir un attribut et des valeurs à comparer. Pour plus d’informations, consultez Parcourir un modèle à l’aide de la visionneuse de réseau neuronal Microsoft.

Si vous souhaitez en savoir plus, vous pouvez parcourir les détails du modèle à l’aide de l’arborescence de contenu générique Microsoft. Le contenu du modèle pour un modèle de régression logistique comprend un nœud marginal qui vous montre toutes les entrées utilisées pour le modèle et les sous-réseaux pour les attributs prévisibles. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de régression logistique (Analysis Services - Exploration de données)

Création de prédictions

Une fois le modèle formé, vous pouvez créer des requêtes sur le contenu du modèle pour obtenir les coefficients de régression et d’autres détails, ou utiliser le modèle pour effectuer des prédictions.

Remarques

  • Ne prend pas en charge l’exploration détaillée. Cela est dû au fait que la structure des nœuds dans le modèle d’exploration de données ne correspond pas nécessairement directement aux données sous-jacentes.

  • Ne prend pas en charge la création de dimensions d’exploration de données.

  • Prend en charge l’utilisation de modèles d’exploration de données OLAP.

  • Ne prend pas en charge l’utilisation de PMML (Predictive Model Markup Language) pour la création de modèles d'exploration de données.

Voir aussi

Contenu du modèle d’exploration de données pour les modèles de régression logistique (Analysis Services - Exploration de données)
Informations techniques de référence sur l’algorithme de régression logistique Microsoft
Exemples de requête de modèle de régression logistique