Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à :
SQL Server 2019 et versions antérieures d’Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.
L’algorithme De régression linéaire Microsoft est une version spéciale de l’algorithme Microsoft Decision Trees optimisé pour la modélisation des paires d’attributs continus. Cette rubrique explique l’implémentation de l’algorithme, explique comment personnaliser le comportement de l’algorithme et fournit des liens vers des informations supplémentaires sur l’interrogation des modèles.
Implémentation de l’algorithme de régression linéaire
L’algorithme Microsoft Decision Trees peut être utilisé pour de nombreuses tâches : régression linéaire, classification ou analyse d’association. Pour implémenter cet algorithme à des fins de régression linéaire, les paramètres de l’algorithme sont contrôlés pour restreindre la croissance de l’arborescence et conserver toutes les données dans le modèle dans un seul nœud. En d’autres termes, bien que la régression linéaire soit basée sur un arbre de décision, l’arborescence ne contient qu’une seule racine et aucune branche : toutes les données résident dans le nœud racine.
Pour ce faire, le paramètre MINIMUM_LEAF_CASES de l’algorithme est défini sur une valeur supérieure ou égale au nombre total de cas que l’algorithme utilise pour entraîner le modèle d’exploration de données. Avec le jeu de paramètres de cette façon, l’algorithme ne crée jamais de fractionnement et effectue donc une régression linéaire.
L’équation qui représente la ligne de régression prend la forme générale de y = ax + b, et est appelée équation de régression. La variable Y représente la variable de sortie, X représente la variable d’entrée, et a et b sont des coefficients réglables. Vous pouvez récupérer les coefficients, les intercepts et d’autres informations sur la formule de régression en interrogeant le modèle d’exploration de données terminé. Pour plus d’informations, consultez Exemples de requête de modèle de régression linéaire.
Méthodes de scoring et sélection des fonctionnalités
Tous les algorithmes d’exploration de données SQL Server Analysis Services utilisent automatiquement la sélection de fonctionnalités pour améliorer l’analyse et réduire la charge de traitement. La méthode utilisée pour la sélection de caractéristiques dans la régression linéaire est le score d’intérêt, car le modèle prend uniquement en charge les colonnes continues. Pour référence, le tableau suivant présente la différence dans la sélection des caractéristiques pour l’algorithme de régression linéaire et l’algorithme Decision Trees.
| Algorithm | Méthode d’analyse | Commentaires |
|---|---|---|
| Régression linéaire | Score d’intérêt | Default. Les autres méthodes de sélection de caractéristiques disponibles avec l’algorithme Decision Trees s’appliquent uniquement aux variables discrètes et ne s’appliquent donc pas aux modèles de régression linéaire. |
| Arbres de décision | Score d’intérêt Entropie de Shannon Bayésien avec K2 Prior Bayésien-Dirichlet avec a priori uniforme (valeur par défaut) |
Si des colonnes contiennent des valeurs continues non binaires, le score d’intérêt est utilisé pour toutes les colonnes pour garantir la cohérence. Sinon, la méthode par défaut ou spécifiée est utilisée. |
Les paramètres d’algorithme qui contrôlent la sélection des fonctionnalités pour un modèle d’arbre de décision sont MAXIMUM_INPUT_ATTRIBUTES et MAXIMUM_OUTPUT.
Personnalisation de l’algorithme de régression linéaire
L’algorithme Microsoft Linear Regression prend en charge les paramètres qui affectent le comportement, les performances et la précision du modèle d’exploration de données résultant. Vous pouvez également définir des indicateurs de modélisation sur les colonnes du modèle d’exploration de données ou les colonnes de structure d’exploration de données pour contrôler la façon dont les données sont traitées.
Définition des paramètres d’algorithme
Le tableau suivant répertorie les paramètres fournis pour l’algorithme De régression linéaire Microsoft.
| Paramètre | Descriptif |
|---|---|
| ATTRIBUTS_D'ENTRÉE_MAXIMUM | Définit le nombre d’attributs d’entrée que l’algorithme peut gérer avant d’appeler la sélection de fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255. |
| MAXIMUM_OUTPUT_ATTRIBUTES | Définit le nombre d’attributs de sortie que l’algorithme peut gérer avant d’appeler la sélection des fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255. |
| FORCE_REGRESSOR | Force l’algorithme à utiliser les colonnes indiquées comme régresseurs, quelle que soit l’importance des colonnes calculées par l’algorithme. |
Indicateurs de modélisation
L’algorithme Microsoft Linear Regression prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d’exploration de données ou le modèle d’exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l’analyse. Pour plus d’informations, consultez Indicateurs de modélisation (exploration de données).
| Indicateur de modélisation | Descriptif |
|---|---|
| Non nul | Indique que la colonne ne peut pas contenir de valeur Null. Une erreur se produit si Analysis Services rencontre une valeur Null pendant l’entraînement du modèle. S’applique aux colonnes de structure d’analyse de données. |
| RÉGRESSEUR | Indique que la colonne contient des valeurs numériques continues qui doivent être traitées comme des variables indépendantes potentielles pendant l’analyse. S’applique aux colonnes du modèle de données minières. Remarque : le marquage d'une colonne comme variable de régression ne garantit pas que la colonne sera utilisée comme telle dans le modèle final. |
Régresseurs dans les modèles de régression linéaire
Les modèles de régression linéaire sont basés sur l’algorithme Microsoft Decision Trees. Toutefois, même si vous n’utilisez pas l’algorithme Microsoft Linear Regression, tout modèle d’arbre de décision peut contenir une arborescence ou des nœuds qui représentent une régression sur un attribut continu.
Vous n’avez pas besoin de spécifier qu’une colonne continue représente un régresseur. L’algorithme Microsoft Decision Trees partitionne le jeu de données en régions avec des modèles significatifs même si vous ne définissez pas l’indicateur REGRESSOR sur la colonne. La différence est que lorsque vous définissez l’indicateur de modélisation, l’algorithme tente de trouver des équations de régression du formulaire a*C1 + b*C2 + ... pour s’adapter aux modèles dans les nœuds de l’arborescence. La somme des résiduels est calculée, et si l'écart est trop grand, une division est forcée dans l'arbre.
Par exemple, si vous prédirez le comportement d’achat du client à l’aide du revenu en tant qu’attribut et que vous définissez l’indicateur de modélisation REGRESSOR sur la colonne [Revenu], l’algorithme essaie d’abord d’ajuster les valeurs à l’aide d’une formule de régression standard. Si l’écart est trop grand, la formule de régression est abandonnée et l’arborescence est divisée sur un autre attribut. L’algorithme de l’arbre de décision tenterait ensuite d’ajuster un régresseur pour le revenu dans chacune des branches après la division.
Vous pouvez utiliser le paramètre FORCED_REGRESSOR pour garantir que l’algorithme utilisera un régresseur particulier. Ce paramètre peut être utilisé avec les algorithmes Microsoft Decision Trees et Microsoft Linear Regression.
Spécifications
Un modèle de régression linéaire doit contenir une colonne clé, des colonnes d’entrée et au moins une colonne prévisible.
Colonnes d’entrée et prévisibles
L’algorithme Microsoft Linear Regression prend en charge les colonnes d’entrée spécifiques et les colonnes prévisibles répertoriées dans le tableau suivant. Pour plus d’informations sur ce que signifient les types de contenu lorsqu’ils sont utilisés dans un modèle d’exploration de données, consultez Content Types (Exploration de données).
| Colonne | Types de contenu |
|---|---|
| Attribut d’entrée | Continu, cyclique, clé, table et ordonné |
| Attribut prédictible | Continu, cyclique et ordonné |
Note
Les types de contenu cycliques et ordonnés sont pris en charge, mais l’algorithme les traite comme des valeurs discrètes et n’effectue pas de traitement spécial.
Voir aussi
Algorithme de régression linéaire Microsoft
Exemples de requête de modèle de régression linéaire
Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)