Funzionalità di selezione degli attributi nel data mining
Quando si definisce un modello di data mining in Microsoft SQL Server 2005 Analysis Services (SSAS), il set di dati spesso contiene più informazioni rispetto a quelle necessarie per la definizione del modello, ma è difficile stabilire quali siano le informazioni necessarie prima di aver definito il modello. Ad esempio, un set di dati potrebbe contenere 500 colonne che descrivono le caratteristiche dei clienti, di cui però solo 50 vengono effettivamente utilizzate per la definizione di un determinato modello. Le colonne inutilizzate, pur non avendo alcun effetto sull'output del modello, comportano un rallentamento dell'elaborazione del modello e un incremento dello spazio necessario per l'archiviazione del modello stesso. Come risoluzione a tale problema alcuni algoritmi Microsoft implementano la funzionalità di selezione degli attributi. Tramite questa funzionalità vengono selezionati automaticamente gli attributi di un set di dati che con maggior probabilità verranno utilizzati nel modello. Gli algoritmi che supportano la funzionalità di selezione degli attributi sono i seguenti:
- Naive Bayes
- Decision Trees
- Clustering
- Neural Network
La funzionalità di selezione degli attributi opera su attributi di input stimabili o sul numero di stati di una colonna, a seconda dell'algoritmo applicato. È possibile attivare questa funzionalità tramite i parametri algoritmo MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES e MAXIMUM_STATES. Se un modello contiene un numero di colonne maggiore del numero specificato nel parametro MAXIMUM_INPUT_ATTRIBUTES, vengono ignorate le colonne che in base all'algoritmo non risultano di interesse. In modo analogo, se un modello contiene un numero di colonne stimabili maggiore del numero specificato nel parametro MAXIMUM_OUTPUT_ATTRIBUTES, vengono ignorate le colonne che in base all'algoritmo non risultano di interesse. Se un modello contiene un numero di case maggiore del numero specificato nel parametro MAXIMUM_STATES, gli stati utilizzati meno di frequente vengono raggruppati e considerati mancanti. Se uno di questi parametri è impostato su 0, la funzionalità di selezione degli attributi viene disattivata. Ciò influisce sui tempi di elaborazione e sulle prestazioni.
Nel processo di definizione del modello vengono inclusi solo gli attributi di input e gli stati selezionati dall'algoritmo, i quali possono essere utilizzati per eventuali stime. Le colonne stimabili ignorate dalla funzionalità di selezione degli attributi vengono utilizzate per le stime, le quali tuttavia sono basate solo su statistiche globali presenti nel modello.
Vedere anche
Concetti
Algoritmi di data mining
Algoritmo Microsoft Clustering
Algoritmo Microsoft Decision Trees
Algoritmo Microsoft Naive Bayes
Algoritmo Microsoft Neural Network (SSAS)