Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Pour créer un modèle d’exploration de données, vous devez d’abord utiliser l’Assistant Exploration de données pour créer une structure d’exploration de données basée sur la nouvelle vue de source de données. Dans cette tâche, vous allez utiliser l’Assistant pour créer une structure d’exploration de données et en même temps créer un modèle d’exploration de données associé basé sur l’algorithme Microsoft Neural Network.
Étant donné que les réseaux neuronaux sont extrêmement flexibles et peuvent analyser de nombreuses combinaisons d’entrées et de sorties, vous devez expérimenter plusieurs façons de traiter les données pour obtenir les meilleurs résultats. Par exemple, vous souhaiterez peut-être personnaliser la façon dont la cible numérique pour la qualité des services est binned ou groupée pour cibler des besoins métier spécifiques. Pour ce faire, vous allez ajouter une nouvelle colonne à la structure d’exploration de données qui regroupe les données numériques de différentes manières, puis créer un modèle qui utilise la nouvelle colonne. Vous allez utiliser ces modèles d’exploration de données pour effectuer une analyse.
Enfin, lorsque vous avez appris à partir du modèle de réseau neuronal quels facteurs ont le plus d’impact pour votre question métier, vous allez créer un modèle distinct pour la prédiction et le scoring. Vous allez utiliser l’algorithme Microsoft Logistic Regression, basé sur le modèle de réseaux neuronaux, mais optimisé pour trouver une solution basée sur des entrées spécifiques.
Étapes
Créer la structure et le modèle d’exploration de données par défaut
Utiliser la discrétisation pour biner la colonne prévisible
Copiez la colonne et modifiez la méthode de discrétisation pour un autre modèle
Créer un alias pour la colonne prédictible afin de pouvoir comparer des modèles
Créer la structure du centre d’appels par défaut
Dans l’Explorateur de solutions dans SQL Server Data Tools (SSDT), cliquez avec le bouton droit sur Structures d’exploration de données et sélectionnez Nouvelle structure d’exploration de données.
Dans la page Bienvenue dans l’Assistant Exploration de données , cliquez sur Suivant.
Dans la page Sélectionner la méthode de définition, vérifiez que À partir d’une base de données relationnelle ou d’un entrepôt de données existant est sélectionné, puis cliquez sur Suivant.
Dans la page Créer la structure d’exploration de données , vérifiez que l’option Créer une structure d’exploration de données avec un modèle d’exploration de données est sélectionnée.
Cliquez sur la liste déroulante pour l’option Quelle technique d’exploration de données voulez-vous utiliser ?, puis sélectionnez Réseaux neuronaux Microsoft.
Étant donné que les modèles de régression logistique sont basés sur les réseaux neuronaux, vous pouvez réutiliser la même structure et ajouter un nouveau modèle d’exploration de données.
Cliquez sur Suivant.
La page Sélectionner la vue de source de données s’affiche.
Sous Affichages de source de données disponibles, sélectionnez
Call Center, puis cliquez sur Suivant.Dans la page Spécifier les types de tables, sélectionnez la case à cocher à côté de la table FactCallCenter. Ne sélectionnez rien pour DimDate. Cliquez sur Suivant.
Dans la page Spécifier les données d’entraînement , sélectionnez Clé en regard de la colonne FactCallCenterID.
Sélectionnez les cases à cocher
Predictet Input.Cochez les cases à cocher pour Key, Input et
Predictcomme indiqué dans le tableau suivant :Tables/colonnes Clé/Entrée/Prédiction AutomaticResponses Entrée Temps Moyen Par Problème Entrée/Prédiction Appels Entrée DateKey Ne pas utiliser JourDeLaSemaine Entrée FactCallCenterID Clé Problèmes Soulevés Entrée LevelOneOperators Entrée/Prédiction LevelTwoOperators Entrée Ordres Entrée/Prédiction ServiceGrade Entrée/Prédiction Quart de travail Entrée Opérateurs Totaux Ne pas utiliser Type de salaire Entrée Notez que plusieurs colonnes prédictibles ont été sélectionnées. L’un des atouts de l’algorithme de réseau neuronal est qu’il peut analyser toutes les combinaisons possibles d’attributs d’entrée et de sortie. Vous ne souhaitez pas le faire pour un jeu de données volumineux, car il peut augmenter de façon exponentielle le temps de traitement.
Dans la page Spécifier le contenu et le type de données des colonnes, vérifiez que la grille contient les colonnes, les types de contenu et les types de données, comme indiqué dans le tableau suivant, puis cliquez sur Suivant.
Colonnes Type de contenu Types de données AutomaticResponses Continué Long Temps Moyen Par Problème Continué Long Appels Continué Long JourDeLaSemaine Discret Texto FactCallCenterID Clé Long Problèmes Soulevés Continué Long LevelOneOperators Continué Long LevelTwoOperators Continué Long Ordres Continué Long ServiceGrade Continué Double Quart de travail Discret Texto Type de salaire Discret Texto Dans la page Créer un jeu de tests , désactivez la zone de texte de l’option Pourcentage de données à tester. Cliquez sur Suivant.
Dans la page Fin de l’Assistant, pour le nom de la structure minière, tapez
Call Center.Pour le nom du modèle de mining, tapez
Call Center Default NN, puis cliquez sur Terminer.La zone Autoriser l’extraction est désactivée, car vous ne pouvez pas explorer les données avec des modèles de réseau neuronal.
Dans l’Explorateur de solutions, cliquez avec le bouton droit sur le nom de la structure d’exploration de données que vous venez de créer, puis sélectionnez Processus.
Utiliser la discrétisation pour biner la colonne cible
Par défaut, lorsque vous créez un modèle de réseau neuronal qui a un attribut prédictible numérique, l’algorithme Microsoft Neural Network traite l’attribut comme un nombre continu. Par exemple, l’attribut ServiceGrade est un nombre qui est théoriquement compris entre 0,00 (tous les appels sont répondus) à 1.00 (tous les appelants se bloquent). Dans ce jeu de données, les valeurs ont la distribution suivante :
Par conséquent, lorsque vous traitez le modèle, les sorties peuvent être regroupées différemment de celles attendues. Par exemple, si vous utilisez le clustering pour identifier les meilleurs groupes de valeurs, l’algorithme divise les valeurs dans ServiceGrade en plages telles que celle-ci : 0.0748051948 - 0.09716216215. Bien que ce regroupement soit mathématiquement précis, ces plages peuvent ne pas être aussi significatives pour les utilisateurs professionnels.
Dans cette étape, pour rendre le résultat plus intuitif, vous allez regrouper les valeurs numériques différemment, en créant des copies de la colonne de données numériques.
Fonctionnement de la discrétisation
Analysis Services fournit diverses méthodes pour le binning ou le traitement des données numériques. Le tableau suivant illustre les différences entre les résultats lorsque l’attribut de sortie ServiceGrade a été traité de trois façons différentes :
Le traiter comme un nombre continu.
L’algorithme utilise le clustering pour identifier la meilleure disposition des valeurs.
Spécifiant que les nombres doivent être binnés par la méthode Equal Areas.
Modèle par défaut (continu)
| VALEUR | SOUTIEN |
|---|---|
| Manquant | 0 |
| 0.09875 | 120 |
Classé par regroupement
| VALEUR | SOUTIEN |
|---|---|
| < 0.0748051948 | 34 |
| 0.0748051948 - 0.09716216215 | 27 |
| 0.09716216215 - 0.13297297295 | 39 |
| 0.13297297295 - 0.167499999975 | 10 |
| >= 0,1674999999975 | 10 |
Classé par zones égales
| VALEUR | SOUTIEN |
|---|---|
| < 0.07 | 26 |
| 0.07 - 0.00 | 22 |
| 0.09 - 0.11 | 36 |
| >= 0,12 | 36 |
Remarque
Vous pouvez obtenir ces statistiques à partir du nœud de statistiques marginales du modèle, une fois que toutes les données ont été traitées. Pour plus d’informations sur le nœud des statistiques marginales, consultez Contenu du modèle d’exploration de données pour les modèles de réseau neuronal (Analysis Services - Exploration de données).
Dans ce tableau, la colonne VALUE vous montre comment le nombre de ServiceGrade a été géré. La colonne SUPPORT indique combien de cas ont cette valeur, ou qui se trouvent dans cette plage.
Utiliser des nombres continus (par défaut)
Si vous avez utilisé la méthode par défaut, l’algorithme calcule les résultats pour 120 valeurs distinctes, dont la valeur moyenne est 0,09875. Vous pouvez également voir le nombre de valeurs manquantes.
Regrouper par clustering
Lorsque vous laissez l’algorithme de clustering Microsoft déterminer le regroupement facultatif des valeurs, l’algorithme regrouperait les valeurs de ServiceGrade en cinq (5) intervalles. Le nombre de cas dans chaque intervalle n'est pas distribué uniformément, comme vous pouvez le voir à partir de la colonne de support.
Classer en zones égales
Lorsque vous choisissez cette méthode, l’algorithme force les valeurs en compartiments de taille égale, ce qui modifie à leur tour les limites supérieures et inférieures de chaque plage. Vous pouvez spécifier le nombre de compartiments, mais vous souhaitez éviter d’avoir deux valeurs dans n’importe quel compartiment.
Pour plus d’informations sur les options de binning, consultez Les méthodes de discrétisation (exploration de données).
Vous pouvez également ajouter une colonne dérivée distincte qui classifie les notes de service dans des plages cibles prédéfinies, telles que Best (ServiceGrade <= 0,05), Acceptable (0.10 > ServiceGrade > 0.05) et Poor (ServiceGrade >= 0.10).
Créer une copie d’une colonne et modifier la méthode de discrétisation
Vous allez effectuer une copie de la colonne d’exploration de données qui contient l’attribut cible, ServiceGrade, et modifier la manière dont les nombres sont regroupés. Vous pouvez créer plusieurs copies de n’importe quelle colonne dans une structure d’exploration de données, y compris l’attribut prédictible.
Pour ce tutoriel, vous allez utiliser la méthode Equal Areas de discrétisation et spécifier quatre compartiments. Les regroupements résultant de cette méthode sont assez proches des valeurs cibles qui intéressent vos utilisateurs professionnels.
Pour créer une copie personnalisée d’une colonne dans la structure d’exploration de données
Dans l’Explorateur de solutions, double-cliquez sur la structure d’exploration de données que vous venez de créer.
Sous l’onglet Structure d’exploration de données, cliquez sur Ajouter une colonne de structure d’exploration de données.
Dans la boîte de dialogue Sélectionner une colonne , sélectionnez ServiceGrade dans la liste de la colonne Source, puis cliquez sur OK.
Une nouvelle colonne est ajoutée à la liste des colonnes de structure d’exploration de données. Par défaut, la nouvelle colonne d’exploration de données porte le même nom que la colonne existante, avec un postfix numérique : par exemple, ServiceGrade 1. Vous pouvez modifier le nom de cette colonne pour être plus descriptif.
Vous allez également spécifier la méthode de discrétisation.
Cliquez avec le bouton droit sur ServiceGrade 1 et sélectionnez Propriétés.
Dans la fenêtre Propriétés , recherchez la propriété Name et remplacez le nom par Service Grade Binned .
Une boîte de dialogue s’affiche pour vous demander si vous souhaitez apporter la même modification au nom de toutes les colonnes de modèle d’exploration de données associées. Cliquez sur Non.
Dans la fenêtre Propriétés , recherchez le type de données de section et développez-le si nécessaire.
Remplacez la valeur de la propriété
ContentContinuousparDiscretized.Les propriétés suivantes sont désormais disponibles. Modifiez les valeurs des propriétés, comme indiqué dans le tableau suivant :
Propriété Valeur par défaut Nouvelle valeur DiscretizationMethodContinuousEqualAreasDiscretizationBucketCountAucune valeur 4 Remarque
La valeur par défaut est DiscretizationBucketCount en fait 0, ce qui signifie que l’algorithme détermine automatiquement le nombre optimal de compartiments. Par conséquent, si vous souhaitez réinitialiser la valeur de cette propriété à sa valeur par défaut, tapez 0.
Dans le Concepteur d’exploration de données, cliquez sur l’onglet Modèles d’exploration de données.
Notez que lorsque vous ajoutez une copie d’une colonne de structure d’exploration de données, l’indicateur d’utilisation de la copie est automatiquement défini sur
Ignore. En règle générale, lorsque vous ajoutez une copie d’une colonne à une structure d’exploration de données, vous n’utilisez pas la copie pour l’analyse avec la colonne d’origine, ou l’algorithme trouvera une corrélation forte entre les deux colonnes susceptibles d’obscurcir d’autres relations.
Ajouter un nouveau modèle d’exploration de données à la structure d’exploration de données
Maintenant que vous avez créé un regroupement pour l’attribut cible, vous devez ajouter un nouveau modèle d’exploration de données qui utilise la colonne discrétisée. Lorsque vous avez terminé, la structure d’exploration de données CallCenter aura deux modèles d’exploration de données :
Le modèle d’exploration de données, NN par défaut du Centre d’appels, gère les valeurs ServiceGrade en tant que plage continue.
Vous allez créer un nouveau modèle d'exploration de données, Call Center Binned NN, qui utilise comme résultats cibles les valeurs de la colonne ServiceGrade, réparties en quatre catégories de taille égale.
Pour ajouter un modèle d’exploration de données basé sur la nouvelle colonne discrétisée
Dans l’Explorateur de solutions, cliquez avec le bouton droit sur la structure d’exploration de données que vous venez de créer, puis sélectionnez Ouvrir.
Cliquez sur l’onglet Modèles d’exploration.
Cliquez sur Créer un modèle d’exploration de données associé.
Dans la boîte de dialogue Nouveau modèle d’exploration de données , pour le nom du modèle, tapez
Call Center Binned NN. Dans la liste déroulante Nom de l’algorithme , sélectionnez Microsoft Neural Network.Dans la liste des colonnes contenues dans le nouveau modèle d’exploration de données, recherchez ServiceGrade et remplacez l’utilisation
PredictparIgnore.De même, recherchez ServiceGrade Binned et remplacez l’utilisation par
IgnorePredict.
Créer un alias pour la colonne cible
En règle générale, vous ne pouvez pas comparer les modèles d’exploration de données qui utilisent différents attributs prédictibles. Toutefois, vous pouvez créer un alias pour une colonne de modèle d’exploration de données. Autrement dit, vous pouvez renommer la colonne, ServiceGrade Binned, dans le modèle d’exploration de données afin qu’elle ait le même nom que la colonne d’origine. Vous pouvez ensuite comparer directement ces deux modèles dans un graphique de précision, même si les données sont discrétisées différemment.
Pour ajouter un alias pour une colonne de structure d’exploration de données dans un modèle d’exploration de données
Dans l’onglet Modèles d’exploration, sous Structure, sélectionnez ServiceGrade Binned.
Notez que la fenêtre Propriétés affiche les propriétés de la colonne ScalarMiningStructure de l’objet.
Sous la colonne du modèle d’exploration de données, ServiceGrade Binned NN, cliquez sur la cellule correspondant à la colonne ServiceGrade Binned.
Notez que maintenant la fenêtre Propriétés affiche les propriétés de l’objet, MiningModelColumn.
Recherchez la propriété Name et remplacez la valeur
ServiceGradepar .Recherchez la propriété Description et tapez l’alias de colonne temporaire.
La fenêtre Propriétés doit contenir les informations suivantes :
Propriété Valeur Description Alias de colonne temporaire Identifiant ServiceGrade Binned Indicateurs de modélisation Nom Niveau de service SourceColumn ID Niveau de service 1 Utilisation Prédire Cliquez n’importe où dans l’onglet Modèle d’exploration de données .
La grille est mise à jour pour afficher le nouvel alias de colonne temporaire
ServiceGrade, à côté de l'utilisation de la colonne. La grille contenant la structure d'exploration de données et les deux modèles d'exploration de données doit ressembler à ce qui suit :Structure NN par défaut du centre d’appels Catégorisation NN du centre d’appels Réseau neuronal Microsoft Réseau neuronal Microsoft AutomaticResponses Entrée Entrée Temps Moyen Par Problème Prédire Prédire Appels Entrée Entrée JourDeLaSemaine Entrée Entrée FactCallCenterID Clé Clé Problèmes Soulevés Entrée Entrée LevelOneOperators Entrée Entrée LevelTwoOperators Entrée Entrée Ordres Entrée Entrée ServceGrade Binned Ignorer Predict (ServiceGrade) ServiceGrade Prédire Ignorer Quart de travail Entrée Entrée Nombre total d’opérateurs Entrée Entrée Type de salaire Entrée Entrée
Traiter tous les modèles
Enfin, pour vous assurer que les modèles que vous avez créés peuvent être facilement comparés, vous allez définir le paramètre de départ pour les modèles par défaut et binned. La définition d’une valeur initiale garantit que chaque modèle commence à traiter les données à partir du même point.
Remarque
Si vous ne spécifiez pas de valeur numérique pour le paramètre de départ, SQL Server Analysis Services génère une valeur initiale en fonction du nom du modèle. Étant donné que les modèles ont toujours des noms différents, vous devez définir une valeur initiale pour s’assurer qu’ils traitent les données dans le même ordre.
Pour spécifier la graine et traiter les modèles
Sous l’onglet Modèle d’exploration de données, cliquez avec le bouton droit sur la colonne du modèle nommé Centre d’appels - LR, puis sélectionnez Définir les paramètres d’algorithme.
Dans la ligne du paramètre HOLDOUT_SEED, cliquez sur la cellule vide sous Valeur, puis tapez
1. Cliquez sur OK. Répétez cette étape pour chaque modèle associé à la structure.Remarque
La valeur que vous choisissez comme valeur initiale n’a pas d’importance, tant que vous utilisez la même valeur initiale pour tous les modèles associés.
Dans le menu Modèles d’exploration, sélectionnez Traiter la structure d’exploration et tous les modèles. Cliquez sur Oui pour déployer le projet d’exploration de données mis à jour sur le serveur.
Dans la boîte de dialogue Modèle d’exploration de données de processus , cliquez sur Exécuter.
Cliquez sur Fermer pour fermer la boîte de dialogue Progression du processus , puis sur Fermer à nouveau dans la boîte de dialogue Modèle d’exploration de données de processus .
Maintenant que vous avez créé les deux modèles d’exploration de données associés, vous allez explorer les données pour découvrir les relations qui existent entre elles.
Tâche suivante de la leçon
Exploration du modèle du centre d’appels (didacticiel d’exploration de données intermédiaire)
Voir aussi
Structures d’exploration de données (Analysis Services - Exploration de données)