Algoritmo Microsoft Naïve Bayes

L'algoritmo Microsoft Naive Bayes è un algoritmo di classificazione basato sui teoremi di Bayes e fornito da Microsoft SQL Server Analysis Services per l'uso nella modellazione predittiva. La parola naïve nel nome Naïve Bayes deriva dal fatto che l'algoritmo usa tecniche bayesiane, ma non tiene conto delle dipendenze che possono esistere.

Questo algoritmo è meno intenso dal calcolo rispetto ad altri algoritmi Microsoft e pertanto è utile per generare rapidamente modelli di data mining per individuare le relazioni tra colonne di input e colonne stimabili. È possibile usare questo algoritmo per eseguire l'esplorazione iniziale dei dati e successivamente è possibile applicare i risultati per creare modelli di data mining aggiuntivi con altri algoritmi più intensi e più accurati dal livello di calcolo.

Esempio

Come strategia promozionale in corso, il reparto marketing per l'azienda Adventure Works Cycle ha deciso di indirizzare potenziali clienti tramite la distribuzione di volantini. Per ridurre i costi, vogliono inviare i volantini solo ai clienti che hanno probabilità di rispondere. L'azienda archivia informazioni in un database sui dati demografici e sulla risposta a una precedente spedizione. Vogliono usare questi dati per vedere in che modo i dati demografici, ad esempio l'età e la posizione, possono aiutare a prevedere la risposta a una promozione, confrontando potenziali clienti con caratteristiche simili e che hanno acquistato dall'azienda in passato. In particolare, vogliono vedere le differenze tra i clienti che hanno acquistato una bicicletta e i clienti che non lo hanno fatto.

Usando l'algoritmo Microsoft Naive Bayes, il reparto marketing può prevedere rapidamente un risultato per un determinato profilo cliente e può quindi determinare quali clienti sono più probabilità di rispondere ai volantini. Usando il Visualizzatore Microsoft Naive Bayes in SQL Server Data Tools (SSDT), possono anche analizzare visivamente in modo visivo le colonne di input che contribuiscono a risposte positive ai volantini.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Naive Bayes calcola la probabilità di ogni stato di ogni colonna di input, in base a ogni possibile stato della colonna stimabile.

Per comprendere il funzionamento, usare il Visualizzatore Microsoft Naive Bayes in SQL Server Data Tools (SSDT), come illustrato nell'immagine seguente, per esplorare visivamente il modo in cui l'algoritmo distribuisce gli stati.

Distribuzione di stati con Naive Bayes

In questo caso, il Visualizzatore Microsoft Naive Bayes elenca ogni colonna di input nel set di dati e mostra come vengono distribuiti gli stati di ogni colonna, in base a ogni stato della colonna stimabile.

Si potrebbe usare questa vista del modello per identificare le colonne di input importanti per differenziare gli stati della colonna prevedibile.

Ad esempio, nella riga per Commute Distance mostrata qui, la distribuzione dei valori di input è visibilemente diversa per gli acquirenti rispetto ai non acquirenti. Quello che questo ti indica è che l'input, Commute Distance = 0-1 miglia, è un potenziale predittore.

Il visualizzatore fornisce anche valori per le distribuzioni, in modo da poter vedere che per i clienti che si spostano da uno a due miglia per lavorare, la probabilità di acquisto di una bicicletta è 0,387 e la probabilità che non acquistino una bicicletta è 0,287. In questo esempio, l'algoritmo usa le informazioni numeriche derivate dalle caratteristiche dei clienti (ad esempio la distanza tra commuta) per stimare se un cliente acquisterà una bicicletta.

Per altre informazioni sull'uso del Visualizzatore Microsoft Naive Bayes, vedere Sfogliare un modello utilizzando il visualizzatore Microsoft Naive Bayes.

Dati necessari per i modelli Naive Bayes

Quando si preparano i dati da usare per il training di un modello Naive Bayes, è necessario comprendere i requisiti per l'algoritmo, inclusa la quantità di dati necessari e il modo in cui vengono usati i dati.

I requisiti per un modello Naive Bayes sono i seguenti:

Una singola colonna chiave Ogni modello deve contenere una colonna numerica o di testo che identifica in modo univoco ogni record. Le chiavi composte non sono consentite.
Colonne di input In un modello Naive Bayes tutte le colonne devono essere colonne discrete o discretizzate. Per informazioni sulla discretizzazione delle colonne, vedere Metodi di discretizzazione (data mining).

Per un modello Naive Bayes, è anche importante assicurarsi che gli attributi di input siano indipendenti l'uno dall'altro. Ciò è particolarmente importante quando si usa il modello per la stima.

Il motivo è che, se si usano due colonne di dati già strettamente correlate, l'effetto consiste nel moltiplicare l'influenza di tali colonne, che può nascondere altri fattori che influenzano il risultato.

Al contrario, la capacità dell'algoritmo di identificare le correlazioni tra le variabili è utile quando si esplora un modello o un set di dati, per identificare le relazioni tra gli input.
Almeno una colonna stimabile L'attributo stimabile deve contenere valori discreti o discretizzati.

I valori della colonna stimabile possono essere considerati come input. Questa procedura può essere utile quando si esplora un nuovo set di dati per trovare relazioni tra le colonne.

Visualizzazione del modello

Per esplorare il modello, è possibile usare microsoft Naive Bayes Viewer. Il visualizzatore mostra in che modo gli attributi di input sono correlati all'attributo stimabile. Il visualizzatore fornisce anche un profilo dettagliato di ogni cluster, un elenco degli attributi che distinguono ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training. Per altre informazioni, vedere Esplorare un modello usando il Visualizzatore Microsoft Naive Bayes.

Per altre informazioni dettagliate, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer (Data Mining). Per altre informazioni sul tipo di informazioni archiviate nel modello, vedere Contenuto del modello di data mining per i modelli Naive Bayes (Analysis Services - Data Mining).

Esecuzione di stime

Dopo aver eseguito il training del modello, i risultati vengono archiviati come set di modelli, che è possibile esplorare o usare per eseguire stime.

È possibile creare query per restituire stime sul modo in cui i nuovi dati sono correlati all'attributo stimabile oppure è possibile recuperare statistiche che descrivono le correlazioni trovate dal modello.

Per informazioni su come creare query su un modello di data mining, vedere Query di data mining. Per esempi di come usare query con un modello Naive Bayes, vedere Esempi di query sul modello Naive Bayes.

Osservazioni:

Supporta l'uso di Predictive Model Markup Language (PMML) per creare modelli di data mining.
Supporta il drill-through.
Non supporta la creazione di dimensioni per l'analisi dei dati.
Supporta l'uso di modelli di data mining OLAP.

Vedere anche

Algoritmi di Data Mining (Analysis Services - Data Mining)Selezione delle caratteristiche (Data Mining)Esempi di query sui modelli Naive Bayes Contenuto del modello di Data Mining per i modelli Naive Bayes (Analysis Services - Data Mining)Riferimento tecnico dell'algoritmo Microsoft Naive Bayes

Last updated on 2017-06-13

Condividi tramite