Sélection des fonctionnalités pour l'exploration de données
Lorsque vous générez un modèle d'exploration de données dans Microsoft SQL Server 2005 Analysis Services (SSAS), le jeu de données contient souvent plus d'informations que nécessaires pour générer le modèle, bien qu'il soit difficile de dire ce qui est nécessaire avant d'avoir généré le modèle. Par exemple, un jeu de données peut contenir 500 colonnes pour décrire les caractéristiques des clients, alors que peut-être seulement 50 de ces colonnes sont utilisées pour générer un modèle particulier. Les colonnes supplémentaires n'affectent pas la sortie du modèle, mais elles augmentent le temps nécessaire pour traiter le modèle et l'espace requis pour stocker le modèle. Pour résoudre ce problème, certains algorithmes Microsoft implémentent une sélection des fonctionnalités. La sélection des fonctionnalités choisit automatiquement les attributs dans un jeu de données qui ont le plus de chance d'être utilisés dans le modèle. Les algorithmes suivants prennent en charge la sélection des fonctionnalités :
- Naive Bayes
- Decision Trees
- Clusters
- Neural Network
La sélection des fonctionnalités fonctionne sur les attributs d'entrée et les attributs prévisibles ou sur le nombre d'états dans une colonne, en fonction de l'algorithme. Vous pouvez contrôler à quel moment la sélection des fonctionnalités est activée en utilisant les paramètres d'algorithme MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES et MAXIMUM_STATES. Si un modèle contient plus de colonnes que le nombre spécifié par le paramètre MAXIMUM_INPUT_ATTRIBUTES, l'algorithme ignore toutes les colonnes qu'il considère comme inintéressantes, après calcul. De manière similaire, si un modèle contient plus de colonnes prévisibles que le nombre spécifié par le paramètre MAXIMUM_OUTPUT_ATTRIBUTES, l'algorithme ignore toutes les colonnes qu'il considère comme inintéressantes, après calcul. Si un modèle contient plus de cas que le nombre spécifié par le paramètre MAXIMUM_STATES, les états les moins utilisés sont groupés et traités comme étant absents. Si l'un de ces paramètres a la valeur 0, la sélection des fonctionnalités est désactivée, ce qui affecte le temps de traitement et les performances.
Seuls les attributs d'entrée et les états que l'algorithme sélectionne sont inclus dans le processus de génération de modèle et peuvent être utilisés pour des prévisions. Les colonnes prévisibles qui sont ignorées par la sélection des fonctionnalités sont utilisées pour les prévisions, mais les prévisions se basent uniquement sur les statistiques globales qui existent dans le modèle.
Voir aussi
Concepts
Algorithmes d'exploration de données
Algorithme Clusters Microsoft
Algorithme MDT (Microsoft Decision Trees)
Algorithme MNB (Microsoft Naive Bayes)
Algorithme MNN (Microsoft Neural Network) (SSAS)