Algorithme MLR (Microsoft Linear Regression)
S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.
L’algorithme de régression linéaire Microsoft est une variante de l’algorithme Microsoft Decision Trees qui vous aide à calculer une relation linéaire entre une variable dépendante et indépendante, puis à utiliser cette relation pour la prédiction.
La relation se présente sous la forme d'une équation correspondant à la droite représentant le mieux une série de données. Par exemple, la droite dans le diagramme suivant est la meilleure représentation linéaire possible des données.
Pour chaque point de données du diagramme, une erreur est associée à la distance entre le point et la droite de régression. Les coefficients a et b de l’équation de régression ajustent l’angle et l’emplacement de la droite de régression. Vous pouvez obtenir l’équation de régression en ajustant a et b jusqu’à ce que la somme des erreurs associées à tous les points atteigne le plus petit nombre possible.
Il existe d'autres types de régression qui font appel à plusieurs variables ainsi que les méthodes non linéaires de régression. Toutefois, la régression linéaire est une méthode utile et connue pour modéliser une réponse à une modification dans certain facteur sous-jacent.
Exemple
Vous pouvez utiliser la régression linéaire pour déterminer une relation entre deux colonnes continues. Par exemple, vous pouvez utiliser la régression linéaire pour calculer une courbe de tendance à partir de données de fabrication ou de ventes. Vous pouvez aussi utiliser la régression linéaire en précurseur du développement de modèles d'exploration de données plus complexes afin d'évaluer les relations parmi les colonnes de données.
Bien qu’il existe de nombreuses façons de calculer la régression linéaire qui ne nécessitent pas d’outils d’exploration de données, l’avantage de l’utilisation de l’algorithme de régression linéaire Microsoft pour cette tâche est que toutes les relations possibles entre les variables sont automatiquement calculées et testées. Vous n'êtes pas obligé de sélectionner une méthode de calcul, telle que la résolution des moindres carrés. Toutefois, la régression linéaire peut simplifier à l'extrême les relations dans les scénarios où plusieurs facteurs affectent le résultat.
Fonctionnement de l'algorithme
L’algorithme de régression linéaire Microsoft est une variante de l’algorithme Microsoft Decision Trees. Lorsque vous sélectionnez l’algorithme de régression linéaire Microsoft, un cas particulier de l’algorithme Microsoft Decision Trees est appelé, avec des paramètres qui limitent le comportement de l’algorithme et nécessitent certains types de données d’entrée. De plus, dans un modèle de régression linéaire, le jeu de données entier est utilisé pour calculer des relations dans le passage initial, alors qu'un modèle d'arbres de décision standard fractionne à plusieurs reprises les données en sous-ensembles ou arborescences plus petits.
Données requises pour les modèles de régression linéaire
Lorsque vous préparez des données à utiliser dans un modèle de régression linéaire, vous devez comprendre les spécifications liées à l'algorithme. Cela comprend la quantité de données requise et le mode d'utilisation de ces données. Les spécifications pour ce type de modèle sont les suivantes :
Colonne à index unique : chaque modèle doit contenir une colonne numérique ou une colonne de texte qui identifie de façon unique chaque enregistrement. Les clés composées ne sont pas autorisées.
Colonne prédictible : nécessite au moins une colonne prédictible. Vous pouvez inclure dans un modèle plusieurs attributs prédictibles, mais ces attributs doivent être des types de données numériques continues. Vous ne pouvez pas utiliser un type de données datetime comme attribut prédictible même si le stockage natif pour les données est numérique.
Colonnes d’entrée Les colonnes d’entrée doivent contenir des données numériques continues et recevoir le type de données approprié.
Pour plus d’informations, consultez la section Configuration requise de Références techniques relatives à l’algorithme MLR (Microsoft Linear Regression).
Affichage d'un modèle de régression linéaire
Pour explorer le modèle, utilisez la visionneuse d’arborescences Microsoft. L'arborescence d'un modèle de régression linéaire est très simple, toutes les informations relatives à l'équation de régression sont contenues dans un nœud unique. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse d’arborescences Microsoft.
Si vous voulez en savoir plus sur l’équation, vous pouvez également afficher les coefficients et autres informations à l’aide de la visionneuse de l’arborescence de contenu générique Microsoft.
Pour un modèle de régression linéaire, le contenu du modèle inclut des métadonnées, la formule de régression et les statistiques relatives à la distribution de valeurs d'entrée. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).
Création de prédictions
Une fois le modèle traité, les résultats sont stockés sous la forme d'un jeu de statistiques avec le formulaire de régression linéaire que vous pouvez utiliser pour élaborer des prédictions. Pour obtenir des exemples de requêtes à utiliser avec un modèle de régression linéaire, consultez Exemples de requête de modèle de régression linéaire.
Pour obtenir des informations générales sur la création de requêtes sur des modèles d’exploration de données, consultez Requêtes d’exploration de données.
Outre la création d’un modèle de régression linéaire en sélectionnant l’algorithme de régression linéaire Microsoft, si l’attribut prédictible est un type de données numérique continu, vous pouvez créer un modèle d’arborescence de décision qui contient des régressions. Dans ce cas, l'algorithme fractionne les données lorsqu'il recherche des points de séparation appropriés, mais pour certaines régions de données, il crée à la place une formule de régression. Pour plus d’informations sur les arborescences de régression au sein d’un modèle d’arborescences de décision, consultez Contenu du modèle d’exploration de données pour les modèles d’arbre de décision (Analysis Services - Exploration de données).
Remarques
Ne prend pas en charge l’utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d’exploration de données.
Ne prend pas en charge la création de dimensions d’exploration de données.
Prend en charge l’extraction.
Prend en charge l'utilisation de modèles d'exploration de données OLAP.
Voir aussi
Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression)
Exemples de requête de modèle de régression linéaire
Contenu du modèle d'exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)