Partager via


Création d’une structure et d’un modèle de réseau neuronal (didacticiel sur l’exploration de données intermédiaire)

Pour créer un modèle d’exploration de données, vous devez d’abord utiliser l’Assistant Exploration de données pour créer une structure d’exploration de données basée sur la nouvelle vue de source de données. Dans cette tâche, vous allez utiliser l’Assistant pour créer une structure d’exploration de données et en même temps créer un modèle d’exploration de données associé basé sur l’algorithme Microsoft Neural Network.

Étant donné que les réseaux neuronaux sont extrêmement flexibles et peuvent analyser de nombreuses combinaisons d’entrées et de sorties, vous devez expérimenter plusieurs façons de traiter les données pour obtenir les meilleurs résultats. Par exemple, vous souhaiterez peut-être personnaliser la façon dont la cible numérique pour la qualité des services est binned ou groupée pour cibler des besoins métier spécifiques. Pour ce faire, vous allez ajouter une nouvelle colonne à la structure d’exploration de données qui regroupe les données numériques de différentes manières, puis créer un modèle qui utilise la nouvelle colonne. Vous allez utiliser ces modèles d’exploration de données pour effectuer une analyse.

Enfin, lorsque vous avez appris à partir du modèle de réseau neuronal quels facteurs ont le plus d’impact pour votre question métier, vous allez créer un modèle distinct pour la prédiction et le scoring. Vous allez utiliser l’algorithme Microsoft Logistic Regression, basé sur le modèle de réseaux neuronaux, mais optimisé pour trouver une solution basée sur des entrées spécifiques.

Étapes

Créer la structure et le modèle d’exploration de données par défaut

Utiliser la discrétisation pour biner la colonne prévisible

Copiez la colonne et modifiez la méthode de discrétisation pour un autre modèle

Créer un alias pour la colonne prédictible afin de pouvoir comparer des modèles

Traiter tous les modèles

Créer la structure du centre d’appels par défaut

  1. Dans l’Explorateur de solutions dans SQL Server Data Tools (SSDT), cliquez avec le bouton droit sur Structures d’exploration de données et sélectionnez Nouvelle structure d’exploration de données.

  2. Dans la page Bienvenue dans l’Assistant Exploration de données , cliquez sur Suivant.

  3. Dans la page Sélectionner la méthode de définition, vérifiez que À partir d’une base de données relationnelle ou d’un entrepôt de données existant est sélectionné, puis cliquez sur Suivant.

  4. Dans la page Créer la structure d’exploration de données , vérifiez que l’option Créer une structure d’exploration de données avec un modèle d’exploration de données est sélectionnée.

  5. Cliquez sur la liste déroulante pour l’option Quelle technique d’exploration de données voulez-vous utiliser ?, puis sélectionnez Réseaux neuronaux Microsoft.

    Étant donné que les modèles de régression logistique sont basés sur les réseaux neuronaux, vous pouvez réutiliser la même structure et ajouter un nouveau modèle d’exploration de données.

  6. Cliquez sur Suivant.

    La page Sélectionner la vue de source de données s’affiche.

  7. Sous Affichages de source de données disponibles, sélectionnez Call Center, puis cliquez sur Suivant.

  8. Dans la page Spécifier les types de tables, sélectionnez la case à cocher à côté de la table FactCallCenter. Ne sélectionnez rien pour DimDate. Cliquez sur Suivant.

  9. Dans la page Spécifier les données d’entraînement , sélectionnez Clé en regard de la colonne FactCallCenterID.

  10. Sélectionnez les cases à cocher Predict et Input.

  11. Cochez les cases à cocher pour Key, Input et Predict comme indiqué dans le tableau suivant :

    Tables/colonnes Clé/Entrée/Prédiction
    AutomaticResponses Entrée
    Temps Moyen Par Problème Entrée/Prédiction
    Appels Entrée
    DateKey Ne pas utiliser
    JourDeLaSemaine Entrée
    FactCallCenterID Clé
    Problèmes Soulevés Entrée
    LevelOneOperators Entrée/Prédiction
    LevelTwoOperators Entrée
    Ordres Entrée/Prédiction
    ServiceGrade Entrée/Prédiction
    Quart de travail Entrée
    Opérateurs Totaux Ne pas utiliser
    Type de salaire Entrée

    Notez que plusieurs colonnes prédictibles ont été sélectionnées. L’un des atouts de l’algorithme de réseau neuronal est qu’il peut analyser toutes les combinaisons possibles d’attributs d’entrée et de sortie. Vous ne souhaitez pas le faire pour un jeu de données volumineux, car il peut augmenter de façon exponentielle le temps de traitement.

  12. Dans la page Spécifier le contenu et le type de données des colonnes, vérifiez que la grille contient les colonnes, les types de contenu et les types de données, comme indiqué dans le tableau suivant, puis cliquez sur Suivant.

    Colonnes Type de contenu Types de données
    AutomaticResponses Continué Long
    Temps Moyen Par Problème Continué Long
    Appels Continué Long
    JourDeLaSemaine Discret Texto
    FactCallCenterID Clé Long
    Problèmes Soulevés Continué Long
    LevelOneOperators Continué Long
    LevelTwoOperators Continué Long
    Ordres Continué Long
    ServiceGrade Continué Double
    Quart de travail Discret Texto
    Type de salaire Discret Texto
  13. Dans la page Créer un jeu de tests , désactivez la zone de texte de l’option Pourcentage de données à tester. Cliquez sur Suivant.

  14. Dans la page Fin de l’Assistant, pour le nom de la structure minière, tapez Call Center.

  15. Pour le nom du modèle de mining, tapez Call Center Default NN, puis cliquez sur Terminer.

    La zone Autoriser l’extraction est désactivée, car vous ne pouvez pas explorer les données avec des modèles de réseau neuronal.

  16. Dans l’Explorateur de solutions, cliquez avec le bouton droit sur le nom de la structure d’exploration de données que vous venez de créer, puis sélectionnez Processus.

Utiliser la discrétisation pour biner la colonne cible

Par défaut, lorsque vous créez un modèle de réseau neuronal qui a un attribut prédictible numérique, l’algorithme Microsoft Neural Network traite l’attribut comme un nombre continu. Par exemple, l’attribut ServiceGrade est un nombre qui est théoriquement compris entre 0,00 (tous les appels sont répondus) à 1.00 (tous les appelants se bloquent). Dans ce jeu de données, les valeurs ont la distribution suivante :

distribution des valeurs de niveau de service

Par conséquent, lorsque vous traitez le modèle, les sorties peuvent être regroupées différemment de celles attendues. Par exemple, si vous utilisez le clustering pour identifier les meilleurs groupes de valeurs, l’algorithme divise les valeurs dans ServiceGrade en plages telles que celle-ci : 0.0748051948 - 0.09716216215. Bien que ce regroupement soit mathématiquement précis, ces plages peuvent ne pas être aussi significatives pour les utilisateurs professionnels.

Dans cette étape, pour rendre le résultat plus intuitif, vous allez regrouper les valeurs numériques différemment, en créant des copies de la colonne de données numériques.

Fonctionnement de la discrétisation

Analysis Services fournit diverses méthodes pour le binning ou le traitement des données numériques. Le tableau suivant illustre les différences entre les résultats lorsque l’attribut de sortie ServiceGrade a été traité de trois façons différentes :

  • Le traiter comme un nombre continu.

  • L’algorithme utilise le clustering pour identifier la meilleure disposition des valeurs.

  • Spécifiant que les nombres doivent être binnés par la méthode Equal Areas.

Modèle par défaut (continu)

VALEUR SOUTIEN
Manquant 0
0.09875 120

Classé par regroupement

VALEUR SOUTIEN
< 0.0748051948 34
0.0748051948 - 0.09716216215 27
0.09716216215 - 0.13297297295 39
0.13297297295 - 0.167499999975 10
>= 0,1674999999975 10

Classé par zones égales

VALEUR SOUTIEN
< 0.07 26
0.07 - 0.00 22
0.09 - 0.11 36
>= 0,12 36

Remarque

Vous pouvez obtenir ces statistiques à partir du nœud de statistiques marginales du modèle, une fois que toutes les données ont été traitées. Pour plus d’informations sur le nœud des statistiques marginales, consultez Contenu du modèle d’exploration de données pour les modèles de réseau neuronal (Analysis Services - Exploration de données).

Dans ce tableau, la colonne VALUE vous montre comment le nombre de ServiceGrade a été géré. La colonne SUPPORT indique combien de cas ont cette valeur, ou qui se trouvent dans cette plage.

  • Utiliser des nombres continus (par défaut)

    Si vous avez utilisé la méthode par défaut, l’algorithme calcule les résultats pour 120 valeurs distinctes, dont la valeur moyenne est 0,09875. Vous pouvez également voir le nombre de valeurs manquantes.

  • Regrouper par clustering

    Lorsque vous laissez l’algorithme de clustering Microsoft déterminer le regroupement facultatif des valeurs, l’algorithme regrouperait les valeurs de ServiceGrade en cinq (5) intervalles. Le nombre de cas dans chaque intervalle n'est pas distribué uniformément, comme vous pouvez le voir à partir de la colonne de support.

  • Classer en zones égales

    Lorsque vous choisissez cette méthode, l’algorithme force les valeurs en compartiments de taille égale, ce qui modifie à leur tour les limites supérieures et inférieures de chaque plage. Vous pouvez spécifier le nombre de compartiments, mais vous souhaitez éviter d’avoir deux valeurs dans n’importe quel compartiment.

Pour plus d’informations sur les options de binning, consultez Les méthodes de discrétisation (exploration de données).

Vous pouvez également ajouter une colonne dérivée distincte qui classifie les notes de service dans des plages cibles prédéfinies, telles que Best (ServiceGrade <= 0,05), Acceptable (0.10 > ServiceGrade > 0.05) et Poor (ServiceGrade >= 0.10).

Créer une copie d’une colonne et modifier la méthode de discrétisation

Vous allez effectuer une copie de la colonne d’exploration de données qui contient l’attribut cible, ServiceGrade, et modifier la manière dont les nombres sont regroupés. Vous pouvez créer plusieurs copies de n’importe quelle colonne dans une structure d’exploration de données, y compris l’attribut prédictible.

Pour ce tutoriel, vous allez utiliser la méthode Equal Areas de discrétisation et spécifier quatre compartiments. Les regroupements résultant de cette méthode sont assez proches des valeurs cibles qui intéressent vos utilisateurs professionnels.

Pour créer une copie personnalisée d’une colonne dans la structure d’exploration de données

  1. Dans l’Explorateur de solutions, double-cliquez sur la structure d’exploration de données que vous venez de créer.

  2. Sous l’onglet Structure d’exploration de données, cliquez sur Ajouter une colonne de structure d’exploration de données.

  3. Dans la boîte de dialogue Sélectionner une colonne , sélectionnez ServiceGrade dans la liste de la colonne Source, puis cliquez sur OK.

    Une nouvelle colonne est ajoutée à la liste des colonnes de structure d’exploration de données. Par défaut, la nouvelle colonne d’exploration de données porte le même nom que la colonne existante, avec un postfix numérique : par exemple, ServiceGrade 1. Vous pouvez modifier le nom de cette colonne pour être plus descriptif.

    Vous allez également spécifier la méthode de discrétisation.

  4. Cliquez avec le bouton droit sur ServiceGrade 1 et sélectionnez Propriétés.

  5. Dans la fenêtre Propriétés , recherchez la propriété Name et remplacez le nom par Service Grade Binned .

  6. Une boîte de dialogue s’affiche pour vous demander si vous souhaitez apporter la même modification au nom de toutes les colonnes de modèle d’exploration de données associées. Cliquez sur Non.

  7. Dans la fenêtre Propriétés , recherchez le type de données de section et développez-le si nécessaire.

  8. Remplacez la valeur de la propriété ContentContinuous par Discretized.

    Les propriétés suivantes sont désormais disponibles. Modifiez les valeurs des propriétés, comme indiqué dans le tableau suivant :

    Propriété Valeur par défaut Nouvelle valeur
    DiscretizationMethod Continuous EqualAreas
    DiscretizationBucketCount Aucune valeur 4

    Remarque

    La valeur par défaut est DiscretizationBucketCount en fait 0, ce qui signifie que l’algorithme détermine automatiquement le nombre optimal de compartiments. Par conséquent, si vous souhaitez réinitialiser la valeur de cette propriété à sa valeur par défaut, tapez 0.

  9. Dans le Concepteur d’exploration de données, cliquez sur l’onglet Modèles d’exploration de données.

    Notez que lorsque vous ajoutez une copie d’une colonne de structure d’exploration de données, l’indicateur d’utilisation de la copie est automatiquement défini sur Ignore. En règle générale, lorsque vous ajoutez une copie d’une colonne à une structure d’exploration de données, vous n’utilisez pas la copie pour l’analyse avec la colonne d’origine, ou l’algorithme trouvera une corrélation forte entre les deux colonnes susceptibles d’obscurcir d’autres relations.

Ajouter un nouveau modèle d’exploration de données à la structure d’exploration de données

Maintenant que vous avez créé un regroupement pour l’attribut cible, vous devez ajouter un nouveau modèle d’exploration de données qui utilise la colonne discrétisée. Lorsque vous avez terminé, la structure d’exploration de données CallCenter aura deux modèles d’exploration de données :

  • Le modèle d’exploration de données, NN par défaut du Centre d’appels, gère les valeurs ServiceGrade en tant que plage continue.

  • Vous allez créer un nouveau modèle d'exploration de données, Call Center Binned NN, qui utilise comme résultats cibles les valeurs de la colonne ServiceGrade, réparties en quatre catégories de taille égale.

Pour ajouter un modèle d’exploration de données basé sur la nouvelle colonne discrétisée

  1. Dans l’Explorateur de solutions, cliquez avec le bouton droit sur la structure d’exploration de données que vous venez de créer, puis sélectionnez Ouvrir.

  2. Cliquez sur l’onglet Modèles d’exploration.

  3. Cliquez sur Créer un modèle d’exploration de données associé.

  4. Dans la boîte de dialogue Nouveau modèle d’exploration de données , pour le nom du modèle, tapez Call Center Binned NN. Dans la liste déroulante Nom de l’algorithme , sélectionnez Microsoft Neural Network.

  5. Dans la liste des colonnes contenues dans le nouveau modèle d’exploration de données, recherchez ServiceGrade et remplacez l’utilisation Predict par Ignore.

  6. De même, recherchez ServiceGrade Binned et remplacez l’utilisation par IgnorePredict.

Créer un alias pour la colonne cible

En règle générale, vous ne pouvez pas comparer les modèles d’exploration de données qui utilisent différents attributs prédictibles. Toutefois, vous pouvez créer un alias pour une colonne de modèle d’exploration de données. Autrement dit, vous pouvez renommer la colonne, ServiceGrade Binned, dans le modèle d’exploration de données afin qu’elle ait le même nom que la colonne d’origine. Vous pouvez ensuite comparer directement ces deux modèles dans un graphique de précision, même si les données sont discrétisées différemment.

Pour ajouter un alias pour une colonne de structure d’exploration de données dans un modèle d’exploration de données

  1. Dans l’onglet Modèles d’exploration, sous Structure, sélectionnez ServiceGrade Binned.

    Notez que la fenêtre Propriétés affiche les propriétés de la colonne ScalarMiningStructure de l’objet.

  2. Sous la colonne du modèle d’exploration de données, ServiceGrade Binned NN, cliquez sur la cellule correspondant à la colonne ServiceGrade Binned.

    Notez que maintenant la fenêtre Propriétés affiche les propriétés de l’objet, MiningModelColumn.

  3. Recherchez la propriété Name et remplacez la valeur ServiceGradepar .

  4. Recherchez la propriété Description et tapez l’alias de colonne temporaire.

    La fenêtre Propriétés doit contenir les informations suivantes :

    Propriété Valeur
    Description Alias de colonne temporaire
    Identifiant ServiceGrade Binned
    Indicateurs de modélisation
    Nom Niveau de service
    SourceColumn ID Niveau de service 1
    Utilisation Prédire
  5. Cliquez n’importe où dans l’onglet Modèle d’exploration de données .

    La grille est mise à jour pour afficher le nouvel alias de colonne temporaire ServiceGrade, à côté de l'utilisation de la colonne. La grille contenant la structure d'exploration de données et les deux modèles d'exploration de données doit ressembler à ce qui suit :

    Structure NN par défaut du centre d’appels Catégorisation NN du centre d’appels
    Réseau neuronal Microsoft Réseau neuronal Microsoft
    AutomaticResponses Entrée Entrée
    Temps Moyen Par Problème Prédire Prédire
    Appels Entrée Entrée
    JourDeLaSemaine Entrée Entrée
    FactCallCenterID Clé Clé
    Problèmes Soulevés Entrée Entrée
    LevelOneOperators Entrée Entrée
    LevelTwoOperators Entrée Entrée
    Ordres Entrée Entrée
    ServceGrade Binned Ignorer Predict (ServiceGrade)
    ServiceGrade Prédire Ignorer
    Quart de travail Entrée Entrée
    Nombre total d’opérateurs Entrée Entrée
    Type de salaire Entrée Entrée

Traiter tous les modèles

Enfin, pour vous assurer que les modèles que vous avez créés peuvent être facilement comparés, vous allez définir le paramètre de départ pour les modèles par défaut et binned. La définition d’une valeur initiale garantit que chaque modèle commence à traiter les données à partir du même point.

Remarque

Si vous ne spécifiez pas de valeur numérique pour le paramètre de départ, SQL Server Analysis Services génère une valeur initiale en fonction du nom du modèle. Étant donné que les modèles ont toujours des noms différents, vous devez définir une valeur initiale pour s’assurer qu’ils traitent les données dans le même ordre.

Pour spécifier la graine et traiter les modèles

  1. Sous l’onglet Modèle d’exploration de données, cliquez avec le bouton droit sur la colonne du modèle nommé Centre d’appels - LR, puis sélectionnez Définir les paramètres d’algorithme.

  2. Dans la ligne du paramètre HOLDOUT_SEED, cliquez sur la cellule vide sous Valeur, puis tapez 1. Cliquez sur OK. Répétez cette étape pour chaque modèle associé à la structure.

    Remarque

    La valeur que vous choisissez comme valeur initiale n’a pas d’importance, tant que vous utilisez la même valeur initiale pour tous les modèles associés.

  3. Dans le menu Modèles d’exploration, sélectionnez Traiter la structure d’exploration et tous les modèles. Cliquez sur Oui pour déployer le projet d’exploration de données mis à jour sur le serveur.

  4. Dans la boîte de dialogue Modèle d’exploration de données de processus , cliquez sur Exécuter.

  5. Cliquez sur Fermer pour fermer la boîte de dialogue Progression du processus , puis sur Fermer à nouveau dans la boîte de dialogue Modèle d’exploration de données de processus .

Maintenant que vous avez créé les deux modèles d’exploration de données associés, vous allez explorer les données pour découvrir les relations qui existent entre elles.

Tâche suivante de la leçon

Exploration du modèle du centre d’appels (didacticiel d’exploration de données intermédiaire)

Voir aussi

Structures d’exploration de données (Analysis Services - Exploration de données)