Interrogation d'un modèle de régression linéaire (Analysis Services - Exploration de données)
Lorsque vous créez une requête sur un modèle d'exploration de données, vous pouvez créer une requête de contenu, qui fournit des détails sur les modèles (ou séquences) découverts au cours de l'analyse, ou créer une requête de prédiction, qui utilise les séquences du modèle pour effectuer des prédictions pour les nouvelles données. Par exemple, une requête de contenu peut fournir des détails supplémentaires sur la formule de régression, tandis qu'une requête de prédiction peut vous indiquer si un nouveau point de données est adapté au modèle. Vous pouvez également extraire les métadonnées relatives au modèle en utilisant une requête.
Cette section explique comment créer des requêtes pour les modèles basés sur l'algorithme MLR (Microsoft Linear Regression). Pour plus d'informations sur la structure d'un modèle de régression linéaire, consultez Contenu du modèle d'exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).
[!REMARQUE]
La régression linéaire étant basée sur un cas spécial de l'algorithme MDT (Microsoft Decision Trees), certains modèles d'arbre de décision qui utilisent des attributs prévisibles continus peuvent contenir des formules de régression. Pour plus d'informations, consultez Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees).
Requêtes de contenu
Retour des paramètres du modèle à l'aide de l'ensemble de lignes de schéma d'exploration de données
Retour de la formule de régression du modèle à l'aide de DMX
Retour du coefficient du modèle
Requêtes de prédiction
Élaboration de prédictions à l'aide d'une requête singleton
Retour de statistiques descriptives provenant d'un modèle de régression
Retour au début
Pour reproduire les résultats des exemples de requêtes, vous pouvez créer une régression linéaire, comme indiqué dans la rubrique suivante. Le modèle est très simple, mais il montre les concepts de base de l'utilisation du Concepteur d'exploration de données pour personnaliser un modèle de régression linéaire.
Procédure : forcer l'utilisation de régresseurs dans un modèle
Recherche d'informations sur le modèle de régression linéaire
La structure d'un modèle de régression linéaire est extrêmement simple : le modèle d'exploration de données représente les données sous la forme d'un nœud unique, et ce nœud définit la formule de régression.
Cette section fournit des exemples sur la façon d'obtenir des informations sur le modèle lui-même, notamment la formule de régression et des statistiques descriptives sur les données.
Exemple de requête 1 : retour des paramètres du modèle à l'aide de l'ensemble de lignes de schéma d'exploration de données
En interrogeant l'ensemble de lignes de schéma d'exploration de données, vous pouvez obtenir les métadonnées relatives au modèle. Celles-ci peuvent inclure la date de création du modèle, celle de son dernier traitement, le nom de la structure d'exploration de données sur laquelle le modèle est basé, ainsi que le nom de la colonne désignée comme attribut prévisible. Vous pouvez également retourner les paramètres qui ont été utilisés lors de la création du modèle.
SELECT MINING_PARAMETERS
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'Call Center Regression'
Exemples de résultats :
MINING_PARAMETERS |
---|
MINING_PARAMETERS MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, FORCE_REGRESSOR=[Average Time Per Issue],[Total Operators] |
[!REMARQUE]
Si vous n'avez pas spécifié de régresseurs, le paramètre FORCE_REGRESSOR a la valeur « FORCE_REGRESSOR = ».
Retour au début
Exemple de requête 2 : retour de la formule de régression du modèle à l'aide de DMX
La requête suivante retourne le contenu du modèle d'exploration de données pour le modèle de régression linéaire. La requête retourne le contenu du nœud qui contient la formule de régression. Vous pouvez également utiliser cette requête dans un modèle d'arbre de décision si l'un des nœuds contient une formule de régression.
Chaque variable et chaque coefficient sont stockés dans une ligne distincte de la table imbriquée NODE_DISTRIBUTION. Pour consulter la formule de régression complète, dans la Visionneuse d'arborescences Microsoft, cliquez sur le nœud (Tout), puis ouvrez Légende d'exploration de données.
SELECT FLATTENED NODE_DISTRIBUTION as t
FROM [Call Center Regression].CONTENT
[!REMARQUE]
Si vous référencez des colonnes individuelles de la table imbriquée en utilisant une requête telle que SELECT <column name> from NODE_DISTRIBUTION, certaines colonnes telles que SUPPORT ou PROBABILITY doivent être placées entre crochets afin de les distinguer des mots clés réservés qui portent le même nom.
Résultats attendus :
t.ATTRIBUTE_NAME |
t.ATTRIBUTE_VALUE |
t.SUPPORT |
t.PROBABILITY |
t.VARIANCE |
t.VALUETYPE |
---|---|---|---|---|---|
Service Grade (Niveau de service) |
Manquant |
0 |
0 |
0 |
1 |
Service Grade (Niveau de service) |
0.09875 |
120 |
1 |
0.00157927083333334 |
3 |
Average Time Per Issue (Durée moyenne par problème) |
0.00136989326310586 |
0 |
0 |
187.866597222222 |
7 |
Average Time Per Issue (Durée moyenne par problème) |
12.0822151449249 |
0 |
0 |
0 |
8 |
Average Time Per Issue (Durée moyenne par problème) |
79.8416666666667 |
0 |
0 |
187.866597222222 |
9 |
Total Operators (Nombre total d'opérateurs) |
-0.000426156789860463 |
0 |
0 |
24.0799305555556 |
7 |
Total Operators (Nombre total d'opérateurs) |
-3.19762422385219 |
0 |
0 |
0 |
8 |
Total Operators (Nombre total d'opérateurs) |
10.6916666666667 |
0 |
0 |
24.0799305555556 |
9 |
-0.00606823493688524 |
0 |
0 |
0.00121526993847281 |
11 |
En comparaison, dans Légende d'exploration de données, la formule de régression apparaît comme suit :
Service Grade = 0.070+0.001*(Average Time Per Issue-79.842)-0.0004*(Total Operators-10.692)
Dans Légende d'exploration de données, certains numéros peuvent être arrondis ; toutefois, la table NODE_DISTRIBUTION et Légende d'exploration de données contiennent essentiellement les mêmes valeurs.
Les valeurs indiquées dans la colonne VALUETYPE précisent le type des informations contenues dans chaque ligne, ce qui est utile si vous traitez les résultats par programme. Le tableau suivant affiche les types de valeur qui sont générés pour une formule de régression linéaire.
VALUETYPE |
---|
1 (Manquante) |
3 (Continue) |
7 (Coefficient) |
8 (Gain du score) |
9 (Statistiques) |
7 (Coefficient) |
8 (Gain du score) |
9 (Statistiques) |
11 (Ordonnée à l'origine) |
Pour plus d'informations sur la signification de chaque type de valeur pour les modèles de régression, consultez Contenu du modèle d'exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).
Retour au début
Exemple de requête 3 : retour du coefficient du modèle
En utilisant l'énumération VALUETYPE, vous pouvez retourner uniquement le coefficient de l'équation de régression, tel qu'indiqué dans la requête suivante :
SELECT FLATTENED MODEL_NAME,
(SELECT ATTRIBUTE_VALUE, VALUETYPE
FROM NODE_DISTRIBUTION
WHERE VALUETYPE = 11)
AS t
FROM [Call Center Regression].CONTENT
Cette requête retourne deux lignes : une provenant du contenu du modèle d'exploration de données et celle provenant de la table imbriquée qui contient le coefficient. La colonne ATTRIBUTE_NAME n'est pas incluse ici parce qu'elle est toujours vide pour le coefficient.
MODEL_NAME |
t.ATTRIBUTE_VALUE |
t.VALUETYPE |
---|---|---|
Call Center Regressors2 |
-0.00606823493688524 |
11 |
Élaboration de prédictions à l'aide du modèle
Vous pouvez créer des requêtes de prédiction sur des modèles de régression linéaire en utilisant l'onglet Prévision de modèle d'exploration de données du Concepteur d'exploration de données. Le générateur de requêtes de prédiction est disponible à la fois dans SQL Server Management Studio et Business Intelligence Development Studio.
[!REMARQUE]
Vous pouvez également créer des requêtes sur les modèles de régression en utilisant les compléments d'exploration de données pour Excel SQL Server 2005 ou les compléments d'exploration de données pour Excel SQL Server 2008. Même si les compléments d'exploration de données pour Excel ne créent pas de modèles de régression, vous pouvez parcourir et interroger un modèle d'exploration de données stocké sur une instance de Analysis Services.
Retour au début
Exemple de requête 4 : élaboration de prédictions à l'aide d'une requête singleton
La méthode la plus facile pour créer une requête singleton sur un modèle de régression consiste à utiliser la boîte de dialogue Entrée de requête singleton. Par exemple, pour créer la requête DMX suivante, sélectionnez le modèle de régression approprié, choisissez Requête singleton, puis tapez 10 comme valeur pour Total Operators.
SELECT
Predict([Call Center Regression].[Service Grade])
FROM
[Call Center Regression]
NATURAL PREDICTION JOIN
(SELECT 10 AS [Total Operators]) AS t
Exemples de résultats :
Yearly Income |
---|
0.0992841946529471 |
Retour au début
Exemple de requête 5 : retour de statistiques descriptives provenant d'un modèle de régression
Vous pouvez utiliser de nombreuses fonctions de prédiction standard avec les modèles de régression linéaire. L'exemple suivant montre comment ajouter des statistiques descriptives aux résultats d'une requête de prédiction.
SELECT
Predict([Call Center Regression].[Service Grade]) as [Predicted Service],
PredictStdev([Call Center Regression].[Service Grade]) as [Standard Deviation]
FROM
[Call Center Regression]
NATURAL PREDICTION JOIN
(SELECT 10 AS [Total Operators]) AS t
Exemples de résultats :
Service prédit |
Standard Deviation (Écart type) |
---|---|
0.0990447584463201 |
0.0348607220015996 |
Retour au début
Liste des fonctions de prédiction
Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MLR (Microsoft Linear Regression) prend en charge les fonctions supplémentaires répertoriées dans le tableau suivant.
|
Pour obtenir la liste des fonctions communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données (Analysis Services – exploration de données). Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).
Historique des modifications
Mise à jour du contenu |
---|
Ajout de liens internes à la rubrique afin de faciliter la consultation des exemples de requêtes. |
Modification de l'exemple pour un modèle avec un meilleur ajustement. Ajout d'un lien vers une nouvelle rubrique qui explique comment générer l'exemple de modèle de régression linéaire. |
Voir aussi