Création d’une structure de modèle d’exploration de données de clustering séquentiel (didacticiel d’exploration de données intermédiaire)

La première étape dans la création d'un modèle de fouille de données en clustering de séquence consiste à utiliser l'Assistant de fouille de données pour créer une nouvelle structure de fouille de données et un modèle basé sur l'algorithme Microsoft Sequence Clustering.

Vous utiliserez la même vue de source de données que celle utilisée pour l’analyse du panier de marché, mais vous ajouterez une colonne qui contient l’identificateur sequence . Dans ce scénario, la séquence signifie l’ordre dans lequel le client a ajouté des articles au panier d’achat.

Vous allez également ajouter certaines colonnes utilisées dans l’un des modèles pour regrouper les clients par données démographiques.

Pour créer une structure et un modèle de clustering de séquences

Dans l’Explorateur de solutions dans SQL Server Data Tools (SSDT), cliquez avec le bouton droit sur Structures d’exploration de données et sélectionnez Nouvelle structure d’exploration de données.
Dans la page Bienvenue dans l’Assistant Exploration de données , cliquez sur Suivant.
Dans la page Sélectionner la méthode de définition, vérifiez que À partir d’une base de données relationnelle ou d’un entrepôt de données existant est sélectionné, puis cliquez sur Suivant.
Dans la page Créer la structure d’exploration de données , vérifiez que l’option Créer une structure d’exploration de données avec un modèle d’exploration de données est sélectionnée. Ensuite, cliquez sur la liste déroulante de l’option, Quelle technique d’exploration de données voulez-vous utiliser ?, puis sélectionnez Microsoft Sequence Clustering. Cliquez sur Suivant.

La page Sélectionner la vue de source de données s’affiche. Sous Vues de source de données disponibles, sélectionnez Orders.

Les commandes sont la même vue de source de données que celle utilisée pour le scénario de panier de marché. Si vous n’avez pas créé cette vue de source de données, consultez Ajout d’une vue de source de données avec des tables imbriquées (didacticiel sur l’exploration de données intermédiaire).
Cliquez sur Suivant.
Dans la page Spécifier les types de tables, cochez la Case en regard de la table vAssocSeqOrders, puis cochez la Case Imbriquée en regard de la table vAssocSeqLineItems. Cliquez sur Suivant.

Remarque

Si une erreur se produit lorsque vous activez la case ou les cases à cocher Imbriquées , il se peut que la jointure dans la vue de source de données ne soit pas correcte. La table imbriquée, vAssocSeqLineItems, doit être connectée à la table de cas, vAssocSeqOrders, par une jointure de plusieurs à un. Vous pouvez modifier la relation en cliquant avec le bouton droit sur la ligne de jointure, puis en inversant la direction de la jointure. Pour plus d’informations, consultez la boîte de dialogue Créer ou modifier une relation (Analysis Services - Données multidimensionnelles).
Sur la page Spécifier les données d’entraînement, choisissez les colonnes à utiliser dans le modèle en cochant les cases comme suit :
- IncomeGroup Cochez la case Entrée .
  
  Cette colonne contient des informations intéressantes sur les clients que vous pouvez utiliser pour le clustering. Vous l’utiliserez dans le premier modèle, puis ignorez-le dans le deuxième modèle.
- OrderNumber Cochez la Key case.
  
  Ce champ sera utilisé comme identificateur pour la table de cas, ou Key. En général, vous ne devez jamais utiliser le champ clé de la table de cas comme entrée, car la clé contient des valeurs uniques qui ne sont pas utiles pour le clustering.
- Région Cochez la case Entrée .
  
  Cette colonne contient des informations intéressantes sur les clients que vous pouvez utiliser pour le clustering. Vous l’utiliserez dans le premier modèle, puis ignorez-le dans le deuxième modèle.
- LineNumber Activez les cases à cocher entrée et activez la Key case à cocher.
  
  Le champ LineNumber sera utilisé comme identificateur pour la table imbriquée, ou Sequence Key. La clé d’une table imbriquée doit toujours être utilisée pour l’entrée.
- Modèle Cochez les cases Entrée et Prédictible .
Vérifiez que les sélections sont correctes, puis cliquez sur Suivant.

Dans la page Spécifier le contenu et le type de données des colonnes , vérifiez que la grille contient les colonnes, les types de contenu et les types de données affichés dans le tableau suivant, puis cliquez sur Suivant.

Tables/colonnes	Type de contenu	Type de données
Groupe de revenus	Discret	Texto
OrderNumber	Clé	Texto
Région	Discret	Texto
vAssocSeqLineItems
Numéro de ligne	Séquence de touches	Long
Modèle	Discret	Texto

Dans la page Créer un jeu de tests , modifiez le pourcentage de données pour le test sur 20, puis cliquez sur Suivant.
Dans la page Fin de l’Assistant, pour le nom de la structure minière, tapez Sequence Clustering with Region.
Pour le modèle d'exploration de données, saisissez Sequence Clustering with Region.
Cochez la case Autoriser l’extraction , puis cliquez sur Terminer.

Tâche suivante de la leçon

Traitement du modèle de clustering de séquences

Voir aussi

Concepteur d’exploration de données
Algorithme de clustering de séquences Microsoft

Last updated on 2017-03-06

Partager via

Création d’une structure de modèle d’exploration de données de clustering séquentiel (didacticiel d’exploration de données intermédiaire)

Pour créer une structure et un modèle de clustering de séquences

Tâche suivante de la leçon

Voir aussi

Ressources supplémentaires