Création de prédictions (Didacticiel sur l'exploration de données de base)
Une fois que vous avez testé la précision de vos modèles d’exploration de données et décidé que vous êtes satisfait des résultats, vous pouvez générer des prédictions à l’aide du Générateur de requêtes de prédiction sous l’onglet Prédiction du modèle d’exploration de données dans le Designer d’exploration de données.
Le Générateur de requêtes de prédiction a trois vues. Avec les vues Conception et Requête , vous pouvez générer et examiner votre requête. Vous pouvez ensuite exécuter la requête et afficher les résultats dans la vue Résultat .
Toutes les requêtes de prédictions utilisent DMX, qui est l'abréviation du langage Data Mining Extensions (DMX). DMX a une syntaxe similaire à celle de T-SQL mais est utilisée pour des requêtes sur des objets d'exploration de données. Bien que la syntaxe DMX ne soit pas compliquée, l’utilisation d’un générateur de requêtes comme celui-ci ou celui du Add-Ins d’exploration de données SQL Server pour Office facilite considérablement la sélection d’entrées et de génération d’expressions. Nous vous recommandons donc vivement d’apprendre les principes de base.
Création de la requête
La première étape dans la création d'une requête de prédiction consiste à sélectionner un modèle d'exploration de données et une table d'entrée.
Pour sélectionner un modèle et une table d'entrée
Sous l’onglet Prédiction du modèle d’exploration de données de Designer d’exploration de données, dans la zone Modèle d’exploration de données, cliquez sur Sélectionner un modèle.
Dans la boîte de dialogue Sélectionner un modèle d’exploration de données, accédez à l’arborescence jusqu’à la structure Publipostage ciblé , développez la structure, sélectionnez
TM_Decision_Tree
, puis cliquez sur OK.Dans la zone Sélectionner une ou plusieurs tables d’entrée , cliquez sur Sélectionner une table de cas.
Dans la boîte de dialogue Sélectionner une table , dans la liste Source de données , sélectionnez la vue de source de données Adventure Works DW Multidimensionnel 2012.
Dans Nom de la table/vue, sélectionnez la table ProspectiveBuyer (dbo), puis cliquez sur OK.
La
ProspectiveBuyer
table ressemble le plus à la table de cas vTargetMail .
Mappage des colonnes
Une fois la table d'entrée sélectionnée, le Générateur de requêtes de prédiction crée un mappage par défaut entre le modèle d'exploration de données et la table d'entrée en fonction des noms des colonnes. Au moins une colonne de la structure doit correspondre à une colonne dans les données externes.
Important
Les données que vous utilisez pour déterminer la précision des modèles doivent contenir une colonne qui peut être mappée à la colonne prédictible. Si une telle colonne n'existe pas, vous pouvez en créer une avec des valeurs vides, mais elle doit avoir le même type de données que la colonne prédictible.
Pour mapper les entrées au modèle
Cliquez avec le bouton droit sur les lignes qui connectent la fenêtre Modèle d’exploration de données à la fenêtre Sélectionner une table d’entrée , puis sélectionnez Modifier les connexions.
Vous remarquez que toutes les colonnes ne sont pas mappées. Nous allons ajouter des mappages pour plusieurs colonnes de table. Nous allons également générer une nouvelle colonne de date de naissance sur la colonne de date actuelle, afin que les colonnes correspondent mieux.
Sous Colonne de table, cliquez sur la
Bike Buyer
cellule et sélectionnez ProspectiveBuyer.Unknown dans la liste déroulante.Cette action mappe la colonne prédictible, [Bike Buyer], à une colonne de la table d'entrée.
Cliquez sur OK.
Dans Explorateur de solutions, cliquez avec le bouton droit sur la vue source de données Publipostage ciblé, puis sélectionnez Afficher Designer.
Cliquez avec le bouton droit sur la table ProspectiveBuyer, puis sélectionnez Nouveau calcul nommé.
Dans la boîte de dialogue Créer un calcul nommé , pour Nom de la colonne, tapez
calcAge
.Pour Description, tapez Calculer l’âge en fonction de la date de naissance.
Dans la zone Expression , tapez
DATEDIFF(YYYY,[BirthDate],getdate())
, puis cliquez sur OK.Étant donné que la table d’entrée n’a pas de colonne Age correspondant à celle du modèle, vous pouvez utiliser cette expression pour calculer l’âge du client à partir de la colonne BirthDate dans la table d’entrée. Étant donné que l’âge a été identifié comme la colonne la plus influente pour prédire l’achat de vélos, il doit exister à la fois dans le modèle et dans la table d’entrée.
Dans Designer d’exploration de données, sélectionnez l’onglet Prédiction du modèle d’exploration de données et ouvrez à nouveau la fenêtre Modifier les connexions.
Sous Colonne de table, cliquez sur la cellule Age et sélectionnez ProspectiveBuyer.calcAge dans la liste déroulante.
Avertissement
Si vous ne voyez pas la colonne dans la liste, vous devrez peut-être actualiser la définition de la vue de source de données chargée dans le concepteur. Pour ce faire, dans le menu Fichier , sélectionnez Enregistrer tout, puis fermez et rouvrez le projet dans le concepteur.
Cliquez sur OK.
Conception de la requête de prédiction
Le premier bouton de la barre d’outils de l’onglet Prédiction du modèle d’exploration de données est le bouton Basculer en mode concevoir / Basculer vers l’affichage des résultats / Basculer vers l’affichage de requête . Cliquez sur la flèche vers le bas de ce bouton, puis sélectionnez Création.
Dans la grille de l’onglet Prédiction du modèle d’exploration de données, cliquez sur la cellule de la première ligne vide de la colonne Source , puis sélectionnez Fonction de prédiction.
Dans la ligne Fonction de prédiction , dans la colonne Champ , sélectionnez
PredictProbability
.Dans la colonne Alias de la même ligne, tapez Probabilité de résultat.
Dans la fenêtre Modèle d’exploration de données ci-dessus, sélectionnez et faites glisser [Bike Buyer] dans la cellule Critères/Argument .
Quand vous lâchez prise, [TM_Decision_Tree]. [Bike Buyer] apparaît dans la cellule Critères/Argument .
Ceci permet de spécifier la colonne cible pour la fonction
PredictProbability
. Pour plus d’informations sur les fonctions, consultez Informations de référence sur les fonctions DMX (Data Mining Extensions).Cliquez sur la ligne vide suivante dans la colonne Source , puis sélectionnez TM_Decision_Tree modèle d’exploration de données.
Dans la
TM_Decision_Tree
ligne, dans la colonne Champ , sélectionnezBike Buyer
.Dans la
TM_Decision_Tree
ligne, dans la colonne Critères/Argument , tapez=1
.Cliquez sur la ligne vide suivante dans la colonne Source , puis sélectionnez ProspectiveBuyer table.
Dans la
ProspectiveBuyer
ligne, dans la colonne Champ , sélectionnez ProspectiveBuyerKey.Un identificateur unique est ainsi ajouté à la requête de prédiction, lequel vous permet d'identifier les personnes susceptibles ou non d'acheter un vélo.
Ajoutez cinq lignes en plus à la grille. Pour chaque ligne, sélectionnez la table ProspectiveBuyer comme source , puis ajoutez les colonnes suivantes dans les cellules Field :
calcAge
LastName
FirstName
AddressLine1
AddressLine2
Enfin, exécutez la requête et consultez les résultats.
Le Générateur de requêtes de prédiction inclut également les contrôles suivants :
Afficher case activée zone
Vous permet de supprimer des clauses de la requête sans devoir les supprimer du concepteur. Ceci s'avère utile lorsque vous travaillez avec des requêtes complexes et souhaitez conserver la syntaxe sans devoir copier et coller le DMX dans la fenêtre.
Groupe
Insère une parenthèse ouvrante (gauche) au début de la ligne sélectionnée, ou insère une parenthèse fermante (droite) à la fin de la ligne active.
ET/OU
Insère l’opérateur
AND
ou l’opérateurOR
immédiatement après la fonction ou la colonne active.
Pour exécuter la requête et afficher les résultats
Sous l’onglet Prédiction du modèle d’exploration de données, sélectionnez le bouton Résultat .
Après l'exécution de la requête et l'affichage des résultats, vous pouvez examiner les résultats.
L’onglet Prédiction du modèle d’exploration de données affiche les informations de contact des clients potentiels susceptibles d’être des acheteurs de vélos. La colonne Probabilité de résultat indique la probabilité que la prédiction soit correcte. Ces résultats peuvent vous aider à déterminer les clients potentiels à cibler pour le publipostage.
À ce stade, vous pouvez enregistrer les résultats. Vous avez le choix entre trois options.
Cliquez avec le bouton droit sur une ligne de données dans les résultats, puis sélectionnez Copier pour enregistrer uniquement cette valeur (et le titre de colonne) dans le Presse-papiers.
Cliquez avec le bouton droit sur une ligne dans les résultats, puis sélectionnez Copier tout pour copier l’ensemble du jeu de résultats, y compris les en-têtes de colonne, dans le Presse-papiers.
Cliquez sur Enregistrer le résultat de la requête pour enregistrer les résultats directement dans une base de données comme suit :
Dans la boîte de dialogue Enregistrer le résultat de la requête d’exploration de données, sélectionnez une source de données ou définissez une nouvelle source de données.
Tapez le nom de la table dans laquelle seront enregistrés les résultats de la requête.
Utilisez l’option Ajouter à DSV pour créer la table et l’ajouter à une vue de source de données existante. Cela est utile si vous souhaitez conserver toutes les tables associées pour un modèle( par exemple, les données d’entraînement, les données de source de prédiction et les résultats des requêtes) dans la même vue de source de données.
Utilisez l’option Remplacer s’il existe pour mettre à jour une table existante avec les derniers résultats.
Vous devez utiliser l'option permettant de remplacer la table si vous avez ajouté des colonnes à la requête de prédiction, modifié les noms des types de données des colonnes dans la requête de prédiction ou si vous avez exécuté des instructions ALTER sur la table de destination.
En outre, si plusieurs colonnes ont le même nom (par exemple, le nom de colonne par défaut Expression), vous devez créer un alias pour les colonnes avec des noms en double, sinon une erreur est générée lorsque le concepteur tente d’enregistrer les résultats dans SQL Server. En effet, SQL Server n'autorise pas plusieurs colonnes à porter le même nom.
Pour plus d’informations, consultez La boîte de dialogue Enregistrer le résultat de la requête d’exploration de données (vue prédiction du modèle d’exploration de données).
Tâche suivante de la leçon
Voir aussi
Créer une requête de prédiction à l’aide du Générateur de requêtes de prédiction