Informations techniques de référence sur l’algorithme de régression linéaire Microsoft

L’algorithme De régression linéaire Microsoft est une version spéciale de l’algorithme Microsoft Decision Trees optimisé pour la modélisation des paires d’attributs continus. Cette rubrique explique l’implémentation de l’algorithme, explique comment personnaliser le comportement de l’algorithme et fournit des liens vers des informations supplémentaires sur l’interrogation des modèles.

Implémentation de l’algorithme de régression linéaire

L’algorithme Microsoft Decision Trees peut être utilisé pour de nombreuses tâches : régression linéaire, classification ou analyse d’association. Pour implémenter cet algorithme à des fins de régression linéaire, les paramètres de l’algorithme sont contrôlés pour restreindre la croissance de l’arborescence et conserver toutes les données dans le modèle dans un seul nœud. En d’autres termes, bien que la régression linéaire soit basée sur un arbre de décision, l’arborescence ne contient qu’une seule racine et aucune branche : toutes les données résident dans le nœud racine.

Pour ce faire, le paramètre MINIMUM_LEAF_CASES de l’algorithme est défini sur une valeur supérieure ou égale au nombre total de cas que l’algorithme utilise pour entraîner le modèle d’exploration de données. Avec le jeu de paramètres de cette façon, l’algorithme ne crée jamais de fractionnement et effectue donc une régression linéaire.

L’équation qui représente la ligne de régression prend la forme générale de y = ax + b, et est appelée équation de régression. La variable Y représente la variable de sortie, X représente la variable d’entrée, et a et b sont des coefficients réglables. Vous pouvez récupérer les coefficients, les intercepts et d’autres informations sur la formule de régression en interrogeant le modèle d’exploration de données terminé. Pour plus d’informations, consultez Exemples de requête de modèle de régression linéaire.

Méthodes de scoring et sélection des fonctionnalités

Tous les algorithmes d’exploration de données Analysis Services utilisent automatiquement la sélection des fonctionnalités pour améliorer l’analyse et réduire la charge de traitement. La méthode utilisée pour la sélection de caractéristiques dans la régression linéaire est le score d’intérêt, car le modèle prend uniquement en charge les colonnes continues. Pour référence, le tableau suivant présente la différence dans la sélection des caractéristiques pour l’algorithme de régression linéaire et l’algorithme Decision Trees.

Algorithme	Méthode d’analyse	Commentaires
Régression linéaire	Score d’intérêt	Par défaut. Les autres méthodes de sélection de caractéristiques disponibles avec l’algorithme Decision Trees s’appliquent uniquement aux variables discrètes et ne s’appliquent donc pas aux modèles de régression linéaire.
Arbres de décision	Score d’intérêt Entropie de Shannon Bayésien avec K2 Prior Bayesien-Dirichlet avec un a priori uniforme (valeur par défaut)	Si des colonnes contiennent des valeurs continues non binaires, le score d’intérêt est utilisé pour toutes les colonnes pour garantir la cohérence. Sinon, la méthode par défaut ou spécifiée est utilisée.

Les paramètres d’algorithme qui contrôlent la sélection des fonctionnalités pour un modèle d’arbre de décision sont MAXIMUM_INPUT_ATTRIBUTES et MAXIMUM_OUTPUT.

Personnalisation de l’algorithme de régression linéaire

L’algorithme Microsoft Linear Regression prend en charge les paramètres qui affectent le comportement, les performances et la précision du modèle d’exploration de données résultant. Vous pouvez également définir des indicateurs de modélisation sur les colonnes du modèle d’exploration de données ou les colonnes de structure d’exploration de données pour contrôler la façon dont les données sont traitées.

Définition des paramètres d’algorithme

Le tableau suivant répertorie les paramètres fournis pour l’algorithme De régression linéaire Microsoft.

Paramètre	Descriptif
ATTRIBUTS_D'ENTRÉE_MAXIMAUX	Définit le nombre d’attributs d’entrée que l’algorithme peut gérer avant d’appeler la sélection de fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Définit le nombre d’attributs de sortie que l’algorithme peut gérer avant d’appeler la sélection des fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255.
FORCE_REGRESSOR	Force l’algorithme à utiliser les colonnes indiquées comme régresseurs, quelle que soit l’importance des colonnes calculées par l’algorithme.

Drapeaux de modélisation

L’algorithme Microsoft Linear Regression prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d’exploration de données ou le modèle d’exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l’analyse. Pour plus d’informations, consultez Indicateurs de modélisation (exploration de données).

Indicateur de modélisation	Descriptif
NON NUL	Indique que la colonne ne peut pas contenir de valeur Null. Une erreur se produit si Analysis Services rencontre une valeur Null pendant l’entraînement du modèle. S'applique aux colonnes des structures minières.
RÉGRESSEUR	Indique que la colonne contient des valeurs numériques continues qui doivent être traitées comme des variables indépendantes potentielles pendant l’analyse. Remarque : le fait de marquer une colonne comme régresseur ne garantit pas que la colonne sera utilisée comme régresseur dans le modèle final. S’applique aux colonnes du modèle d’exploration de données.

Régresseurs dans les modèles de régression linéaire

Les modèles de régression linéaire sont basés sur l’algorithme Microsoft Decision Trees. Toutefois, même si vous n’utilisez pas l’algorithme Microsoft Linear Regression, tout modèle d’arbre de décision peut contenir une arborescence ou des nœuds qui représentent une régression sur un attribut continu.

Vous n’avez pas besoin de spécifier qu’une colonne continue représente un régresseur. L’algorithme Microsoft Decision Trees partitionne le jeu de données en régions avec des modèles significatifs même si vous ne définissez pas l’indicateur REGRESSOR sur la colonne. La différence est que lorsque vous définissez l’indicateur de modélisation, l’algorithme essaiera de trouver des équations de régression de la forme a*C1 + b*C2 + ... pour ajuster les modèles dans les nœuds de l’arborescence. La somme des résidus est calculée et si l’écart est trop grand, un fractionnement est forcé dans l’arbre.

Par exemple, si vous prévoyez un comportement d’achat client à l’aide de Income en tant qu’attribut et que vous définissez l’indicateur de modélisation REGRESSOR sur la colonne, l’algorithme essaie d’abord d’ajuster les valeurs de revenu à l’aide d’une formule de régression standard. Si l’écart est trop grand, la formule de régression est abandonnée et l’arborescence est divisée sur un autre attribut. L’algorithme de l’arbre de décision tenterait ensuite d’ajuster un régresseur pour le revenu dans chacune des branches après la division.

Vous pouvez utiliser le paramètre FORCED_REGRESSOR pour garantir que l’algorithme utilisera un régresseur particulier. Ce paramètre peut être utilisé avec les algorithmes Microsoft Decision Trees et Microsoft Linear Regression.

Spécifications

Un modèle de régression linéaire doit contenir une colonne clé, des colonnes d’entrée et au moins une colonne prévisible.

Colonnes d'entrée et colonnes prévisibles

L’algorithme Microsoft Linear Regression prend en charge les colonnes d’entrée spécifiques et les colonnes prévisibles répertoriées dans le tableau suivant. Pour plus d’informations sur ce que signifient les types de contenu lorsqu’ils sont utilisés dans un modèle d’exploration de données, consultez Content Types (Exploration de données).

Colonne	Types de contenu
Attribut d’entrée	Continu, cyclique, clé, tableau et ordonné
Attribut prédictible	Continu, cyclique et ordonné

Remarque

Cyclical et Ordered les types de contenu sont pris en charge, mais l’algorithme les traite comme des valeurs discrètes et n’effectue pas de traitement spécial.

Voir aussi

Algorithme de régression linéaire Microsoft
Exemples de requête de modèle de régression linéaire
Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)

Last updated on 2017-06-13

Partager via