Condividi tramite


Algoritmo Microsoft Decision Trees

L'algoritmo Microsoft Decision Trees è un algoritmo di classificazione e regressione fornito da Microsoft SQL Server Analysis Services per l'uso nella modellazione predittiva di attributi discreti e continui.

Per gli attributi discreti, l'algoritmo esegue le stime in base alle relazioni tra le colonne di input in un set di dati. I valori, noti come stati, di tali colonne vengono utilizzati per stimare gli stati di una colonna designata come stimabile. In particolare, l'algoritmo identifica le colonne di input correlate alla colonna stimabile. Se ad esempio, in uno scenario finalizzato alla stima dei clienti che probabilmente acquisteranno una bicicletta, nove su dieci tra i clienti più giovani acquistano la bicicletta mentre solo due su dieci tra i clienti meno giovani la acquistano, l'algoritmo desume che l'età rappresenta un criterio di stima valido per l'acquisto di biciclette. L'albero delle decisioni esegue le stime in base alla tendenza verso un determinato risultato.

Per gli attributi continui, l'algoritmo utilizza una regressione lineare per determinare le divisioni dell'albero delle decisioni.

Se più colonne vengono impostate come stimabili o i dati di input contengono una tabella nidificata impostata come stimabile, l'algoritmo compilare un albero delle decisioni separato per ogni colonna stimabile

Esempio

Il reparto marketing dell'azienda Adventure Works Cycles vuole identificare le caratteristiche dei clienti precedenti che potrebbero indicare se questi clienti potrebbero acquistare un prodotto in futuro. Il database AdventureWorks2012 archivia informazioni demografiche che descrivono i clienti precedenti. Usando l'algoritmo Microsoft Decision Trees per analizzare queste informazioni, il reparto marketing può creare un modello che stima se un determinato cliente acquisterà prodotti, in base agli stati delle colonne note relative al cliente, ad esempio dati demografici o precedenti modelli di acquisto.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Decision Trees crea un modello di data mining creando una serie di suddivisioni nell'albero. Queste divisioni sono rappresentate come nodi. L'algoritmo aggiunge un nodo al modello ogni volta che rileva una colonna di input correlata in modo significativo alla colonna stimabile. Il modo in cui l'algoritmo determina una divisione varia a seconda che venga stimata una colonna continua o discreta.

L'algoritmo Microsoft Decision Trees usa la selezione delle funzionalità per guidare la selezione degli attributi più utili. La selezione delle funzionalità viene usata da tutti gli algoritmi di data mining di Analysis Services per migliorare le prestazioni e la qualità dell'analisi. La caratteristica di selezione degli attributi è importante per impedire agli attributi poco importanti di utilizzare il processore. Se si utilizza un numero eccessivo di input o di attributi stimabili quando si progetta un modello di data mining, l'elaborazione del modello può richiedere molto tempo oppure la memoria potrebbe risultare insufficiente. I metodi usati per determinare se suddividere l'albero includono metriche standard del settore per le reti entropia e Bayesian*.* Per altre informazioni sui metodi usati per selezionare attributi significativi e quindi assegnare un punteggio e classificare gli attributi, vedere Selezione delle funzionalità (data mining).

Un problema comune nei modelli di data mining è che il modello diventa troppo sensibile alle piccole differenze nei dati di training, nel qual caso si dice che sia sovrastruito o sottoposto a training. Non è possibile generalizzare un modello overfitted agli altri set di dati. Per evitare l'overfitting su qualsiasi set di dati specifico, l'algoritmo Microsoft Decision Trees usa tecniche per controllare la crescita dell'albero. Per una spiegazione più approfondita del funzionamento dell'algoritmo Microsoft Decision Trees, vedere Informazioni di riferimento tecnico sull'algoritmo Microsoft Decision Trees.

Stima di colonne discrete

Il modo in cui l'algoritmo Microsoft Decision Trees compila un albero per una colonna stimabile discreta può essere illustrato usando un istogramma. Nel diagramma seguente viene illustrato un istogramma che traccia la colonna stimabile Bike Buyers in base alla colonna di input Age. L'istogramma mostra che l'età consente di determinare se una persona acquisterà o meno una bicicletta.

Istogramma dall'algoritmo Microsoft Decision Trees Istogram dall'algoritmo

La correlazione illustrata nel diagramma causerà la creazione di un nuovo nodo nel modello dall'algoritmo Microsoft Decision Trees.

Nodo dell'albero delle decisioni dell'albero delle decisioni

Quando l'algoritmo aggiunge nuovi nodi a un modello, viene formata una struttura ad albero. Il nodo superiore dell'albero descrive la suddivisione della colonna stimabile per la popolazione complessiva di clienti. Mano a mano che il modello continua a espandersi, l'algoritmo considera tutte le colonne.

Stima di colonne continue

Quando l'algoritmo Microsoft Decision Trees compila un albero in base a una colonna prevedibile continua, ogni nodo contiene una formula di regressione. Nella formula di regressione viene eseguita una divisione in corrispondenza di un punto di non linearità. Si consideri ad esempio il diagramma seguente.

Più righe di regressione che mostrano linee di regressione non lineare che mostrano

Il diagramma contiene i dati che è possibile modellare utilizzando una linea singola o due linee collegate. Una linea singola non consente tuttavia una rappresentazione ottimale dei dati. Se invece si utilizzano due linee, il modello consentirà di ottenere una migliore approssimazione. Il punto di unione delle due linee è il punto di non linearità, ovvero il punto di divisione di un nodo in un modello di albero decisionale. Ad esempio, il nodo che corrisponde al punto di non linearità nel grafico precedente potrebbe essere rappresentato dal diagramma seguente. Le due equazioni rappresentano le equazioni di regressione per le due linee.

Equazione che rappresenta un punto di equazione non lineare

Dati richiesti per i modelli di albero delle decisioni

Quando si preparano i dati da utilizzare in un modello di albero delle decisioni, verificare che siano chiari i requisiti per l'algoritmo specifico, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.

I requisiti per un modello di albero delle decisioni sono i seguenti:

  • Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record. Le chiavi composte non sono consentite.

  • Una colonna stimabile Richiede almeno una colonna stimabile. È possibile includere più attributi stimabili in un modello e tali attributi possono essere di tipi diversi, numerici o discreti. Tuttavia, aumentando il numero di attributi stimabili può aumentare il tempo di elaborazione.

  • Colonne di input Richiede colonne di input, che possono essere discrete o continue. L'aumento del numero di attributi di input influisce sul tempo di elaborazione.

Per informazioni più dettagliate sui tipi di contenuto e i tipi di dati supportati per i modelli di albero delle decisioni, vedere la sezione Requisiti di Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees.

Visualizzazione di un modello di albero delle decisioni

Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Decision Trees. Se il modello genera più alberi, è possibile selezionare un albero per visualizzare dettagli sulla classificazione dei case per ciascun attributo stimabile. È inoltre possibile visualizzare l'interazione degli alberi utilizzando il Visualizzatore rete di dipendenze. Per altre informazioni, vedere Visualizzare un modello usando il Visualizzatore Microsoft Decision Trees.

Per ulteriori dettagli sui nodi o sui rami dell'albero, è anche possibile esplorare il modello in Microsoft Generic Content Tree Viewer. Il contenuto memorizzato per il modello include la distribuzione per tutti i valori in ogni nodo, le probabilità di ogni livello dell'albero e le formule di regressione degli attributi continui. Per altre informazioni, vedere Contenuto del modello di data mining per i modelli di albero delle decisioni (Analysis Services - Data mining).

Creazione di stime

In seguito all'elaborazione del modello, i risultati vengono archiviati come un set di modelli e statistiche che è possibile utilizzare per esplorare le relazioni o per eseguire stime.

Per gli esempi di query da usare con un modello di albero delle decisioni, vedere Esempi di query sul modello di alberi delle decisioni.

Per informazioni generali sulla creazione di query in base ai modelli di data mining, vedere Query di data mining.

Commenti

  • Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.

  • Supporta il drill-through.

  • Supporta l'utilizzo di modelli di data mining OLAP e la creazione di dimensioni di data mining.

Vedere anche

Algoritmi di data mining (Analysis Services - Data Mining)Microsoft Decision Tree Algorithm Technical ReferenceDecision Tree Query Examples Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)