Condividi tramite


Algoritmo Microsoft Naive Bayes

L'algoritmo Microsoft Naive Bayes è un algoritmo di classificazione basato sui teoremi di Bayes e fornito da Microsoft SQL Server Analysis Services per l'uso nella modellazione predittiva. La parola naive nel nome Naive Bayes deriva dal fatto che nell'algoritmo vengono utilizzate tecniche di Bayes, ma non vengono considerate le dipendenze eventualmente presenti.

Questo algoritmo è meno intenso dal calcolo rispetto ad altri algoritmi Microsoft e pertanto è utile per generare rapidamente modelli di data mining per individuare le relazioni tra colonne di input e colonne stimabili. È possibile utilizzare questo algoritmo per eseguire l'esplorazione iniziale dei dati e applicare successivamente i risultati ottenuti per creare modelli di data mining aggiuntivi con altri algoritmi dotati di funzionalità di calcolo più avanzate e accurate.

Esempio

Come strategia promozionale continuativa, il reparto marketing dell'azienda Adventure Works Cycle ha deciso di inviare volantini ai potenziali clienti mediante mailing diretto. Per ridurre i costi, i volantini verranno inviati solo ai clienti che probabilmente risponderanno. L'azienda archivia in un database le informazioni demografiche e relative alla risposta dei clienti a un mailing precedente. L'obiettivo è analizzare tali dati per scoprire in che modo è possibile utilizzare informazioni demografiche come l'età e il luogo di residenza per eseguire la stima relativa alla risposta a una promozione, confrontando i potenziali clienti con quelli che presentano caratteristiche analoghe e in passato hanno acquistato prodotti dell'azienda. In particolare, si intende esaminare le differenze tra i clienti che hanno acquistato una bicicletta e quelli che non l'hanno acquistata.

Usando l'algoritmo Microsoft Naive Bayes, il reparto marketing può prevedere rapidamente un risultato per un determinato profilo cliente e quindi determinare quali clienti sono più probabili rispondere ai volantini. Usando microsoft Naive Bayes Viewer in SQL Server Data Tools (SSDT), possono anche analizzare visivamente in modo visivo quali colonne di input contribuiscono alle risposte positive ai volantini.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Naive Bayes calcola la probabilità di ogni stato di ogni colonna di input, in base a ogni possibile stato della colonna stimabile.

Per comprendere il funzionamento, usare Microsoft Naive Bayes Viewer in SQL Server Data Tools (SSDT), come illustrato nell'immagine seguente, per esplorare visivamente come l'algoritmo distribuisce gli stati.

Distribuzione naive bayes degli stati Naive bayes

In questo caso, il Visualizzatore Microsoft Naive Bayes elenca ogni colonna di input nel set di dati e mostra come vengono distribuiti gli stati di ogni colonna, in base a ogni stato della colonna stimabile.

Questa vista del modello consente di identificare le colonne di input significative ai fini della differenziazione degli stati della colonna stimabile.

Ad esempio, nella riga per Distanza dal lavoro qui indicata, la distribuzione dei valori di input è visibilmente diversa per gli acquirenti rispetto ai non acquirenti. Questo indica che l'input, Distanza dal lavoro = 0-1 chilometri, è un potenziale criterio di stima.

Il visualizzatore fornisce inoltre valori per le distribuzioni, pertanto è possibile visualizzare che, per i clienti che risiedono a una distanza dal posto di lavoro compresa tra uno e due chilometri, la probabilità che acquistino una bicicletta è pari a 0,387, mentre la probabilità che non effettuino tale acquisto è pari a 0,287. In questo esempio nell'algoritmo vengono utilizzate le informazioni numeriche derivate da caratteristiche del cliente, ad esempio la distanza dal posto di lavoro, per stimare se il cliente acquisterà una bicicletta.

Per altre informazioni sull'uso del Visualizzatore Microsoft Naive Bayes, vedere Sfogliare un modello usando il Visualizzatore Microsoft Naive Bayes.

Dati necessari per i modelli Naive Bayes

Quando si preparano i dati da utilizzare per il training di un modello Naive Bayes, verificare che siano chiari i requisiti dell'algoritmo, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.

I requisiti di un modello Naive Bayes sono i seguenti:

  • Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record. Le chiavi composte non sono consentite.

  • Colonne di input In un modello Naive Bayes tutte le colonne devono essere colonne discrete o discretizzate. Per informazioni sulla discretizzazione delle colonne, vedere Metodi di discretizzazione (data mining).

    Per un modello Naive Bayes, è importante verificare inoltre che gli attributi di input siano indipendenti uno dall'altro. Questo aspetto è particolarmente importante quando si utilizza il modello per la stima.

    Il motivo è dovuto al fatto che l'utilizzo di due colonne di dati già strettamente correlati comporterebbe un'influenza ancora maggiore di tali colonne e verrebbero pertanto messi in secondo piano gli altri fattori che influiscono sul risultato.

    Viceversa, la possibilità dell'algoritmo di identificare le correlazioni fra variabili è utile quando si esplora un modello o un set di dati, per identificare le relazioni fra input.

  • Almeno una colonna stimabile Nell'attributo stimabile devono essere contenuti valori discreti o discretizzati.

    I valori della colonna stimabile possono essere utilizzati come input. Ciò può essere utile quando si esplora un nuovo set di dati, per trovare le relazioni fra le colonne.

Visualizzazione del modello

Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Naive Bayes. Nel visualizzatore viene illustrato il modo in cui gli attributi di input sono correlati all'attributo stimabile. Nel visualizzatore viene inoltre fornito un profilo dettagliato di ogni cluster, un elenco degli attributi che consentono di distinguere ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training. Per altre informazioni, vedere Visualizzare un modello utilizzando il Visualizzatore Microsoft Naive Bayes.

Per altre informazioni dettagliate, è possibile esplorare il modello nel Visualizzatore albero del contenuto generico Microsoft (data mining). Per altre informazioni sul tipo di informazioni archiviate nel modello, vedere Contenuto del modello di data mining per i modelli Naive Bayes (Analysis Services - Data mining).For more information about the type of information stored in the model, see Mining Model Content for Naive Bayes Models (Analysis Services - Data mining).

Esecuzione di stime

In seguito al training del modello, i risultati vengono archiviati come set di modelli, esplorabili o utilizzabili per eseguire stime.

È possibile creare query per restituire stime sul modo in cui i nuovi dati sono correlati all'attributo stimabile oppure recuperare statistiche che descrivono le correlazioni rilevate dal modello.

Per informazioni sulla creazione di query in base a un modello di data mining, vedere Query di data mining. Per esempi di come usare le query con un modello Naive Bayes, vedere Esempi di query sul modello Naive Bayes.

Commenti

  • Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.

  • Supporta il drill-through.

  • Non supporta la creazione di dimensioni di data mining.

  • Supporta l'utilizzo di modelli di data mining OLAP.

Vedere anche

Algoritmi di data mining (Analysis Services - Data mining)Selezione delle funzionalità (data mining)Esempi di query sui modelli Naive BayesContenuto modello di data mining per modelli Naive Bayes (Analysis Services - Data mining)Riferimento tecnico dell'algoritmo Microsoft Naive Bayes