Featureauswahl beim Data Mining
Wenn Sie in Microsoft SQL Server 2005 Analysis Services (SSAS) ein Data Mining-Modell erstellen, enthält das Dataset häufig mehr Informationen als zum Erstellen des Modells benötigt werden, auch wenn sich nur schwer sagen lässt, was nötig ist, solange Sie das Modell noch nicht erstellt haben. Angenommen, ein Dataset enthält 500 Spalten, die Kundenmerkmale beschreiben, doch es werden vielleicht nur 50 dieser Spalten zum Erstellen eines bestimmten Modells verwendet. Die zusätzlichen Spalten wirken sich zwar nicht auf das Ergebnis des Modells aus, doch sie erhöhen die zur Verarbeitung des Modells erforderliche Zeit und den zum Speichern des Modells benötigten Speicherplatz. Zur Lösung dieses Problems implementieren einige Microsoft-Algorithmen die Featureauswahl. Mithilfe der Featureauswahl werden automatisch die Attribute in einem Dataset ausgewählt, die am wahrscheinlichsten im Modell Verwendung finden. Die Featureauswahl wird von folgenden Algorithmen unterstützt:
- Naive Bayes
- Entscheidungsstrukturen
- Clustering
- Neuronale Netzwerke
Die Featureauswahl konzentriert sich auf Eingabeattribute und vorhersagbare Attribute oder auf die Anzahl von Status in einer Spalte, je nach Algorithmus. Mithilfe der Algorithmusparameter MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES und MAXIMUM_STATES können Sie kontrollieren, wann die Featureauswahl eingeschaltet wird. Falls ein Modell mehr Spalten enthält als durch die im Parameter MAXIMUM_INPUT_ATTRIBUTES angegebene Zahl, ignoriert der Algorithmus alle Spalten, die er als irrelevant errechnet. Gleiches gilt, wenn ein Modell mehr vorhersagbare Spalten enthält als durch die im Parameter MAXIMUM_OUTPUT_ATTRIBUTES angegebene Zahl. Auch in diesem Fall ignoriert der Algorithmus alle Spalten, die er als irrelevant errechnet. Wenn ein Modell mehr Fälle enthält, als im Parameter MAXIMUM_STATES angegeben sind, werden die am wenigsten verbreiteten Status in einer Gruppe zusammengefasst und als fehlend behandelt. Wird einer dieser Parameter auf 0 festgelegt, ist die Featureauswahl ausgeschaltet. Dies wirkt sich auf die Verarbeitungszeit und die Leistung aus.
Nur die vom Algorithmus ausgewählten Eingabeattribute und Status werden bei der Modellerstellung berücksichtigt und stehen für Vorhersagen zur Verfügung. Vorhersagbare Spalten, die von der Featureauswahl ignoriert werden, werden zwar für Vorhersagen verwendet, doch die Vorhersagen basieren lediglich auf der im Modell vorhandenen Globalstatistik.
Siehe auch
Konzepte
Data Mining-Algorithmen
Microsoft Clustering-Algorithmus
Microsoft Decision Trees-Algorithmus
Microsoft Naive Bayes-Algorithmus
Microsoft Neural Network-Algorithmus (SSAS)