Algoritmi di data mining (Analysis Services - Data mining)
Un algoritmo di data mining è un set di approcci euristici e calcoli che consente di creare un modello di data mining dai dati. Per creare un modello, tramite l'algoritmo vengono innanzitutto analizzati i dati forniti, ricercando tipi specifici di modelli o tendenze. I risultati dell'analisi vengono utilizzati dall'algoritmo per definire i parametri ottimali per la creazione del modello di data mining. Questi parametri vengono quindi applicati all'intero set di dati per estrarre modelli utilizzabili e statistiche dettagliate.
Il modello di data mining creato da un algoritmo con i dati in uso può avere forme diverse, tra cui:
Set di cluster con cui viene descritto in che modo i case di un set di dati sono correlati.
Albero delle decisioni per la stima di un risultato e per la descrizione della modalità con cui criteri diversi possono incidere su tale risultato.
Modello matematico per la previsione delle vendite.
Set di regole mediante le quali viene descritto in che modo i prodotti vengono raggruppati in una transazione e le probabilità con cui tali prodotti vengano acquistati insieme.
In Microsoft SQL Server Analysis Services sono disponibili più algoritmi utilizzabili nelle soluzioni di data mining. Questi algoritmi sono implementazioni di alcune delle metodologie più diffuse utilizzate in un data mining. Tutti gli algoritmi di data mining di Microsoft possono essere personalizzati e sono completamente programmabili tramite API specificate o utilizzando i componenti di data mining in SQL Server Integration Services.
È possibile utilizzare inoltre algoritmi di terze parti che siano conformi alla specifica OLE DB per il data mining o che consentano lo sviluppo di algoritmi personalizzati registrabili come servizi, quindi utilizzati all'interno del framework Data Mining di SQL Server.
Scelta dell'algoritmo corretto
La scelta dell'algoritmo più appropriato da utilizzare per un'attività analitica specifica può rivelarsi complessa. Sebbene sia possibile utilizzare algoritmi diversi per eseguire la stessa attività aziendale, ogni algoritmo produce un risultato diverso e alcuni algoritmi possono produrre più di un tipo di risultato. È ad esempio possibile utilizzare l'algoritmo Microsoft Decision Trees non solo per le stime ma anche per ridurre il numero di colonne in un set di dati, in quanto l'albero delle decisioni può consentire di identificare colonne che non hanno effetto sul modello di data mining finale.
Scelta di un algoritmo in base al tipo
In Analysis Services sono inclusi i tipi di algoritmi seguenti:
Algoritmi di classificazione che consentono di stimare una o più variabili discrete, in base agli altri attributi del set di dati.
Algoritmi di regressione che consentono di stimare una o più variabili continue, ad esempio profitto o perdita, in base ad altri attributi nel set di dati.
Algoritmi di segmentazione che consentono di dividere i dati in gruppi, o cluster, di elementi con proprietà simili.
Algoritmi di associazione che consentono di trovare le correlazioni tra attributi diversi in un set di dati. L'applicazione più comune di questo tipo di algoritmo è costituita dall'utilizzo per la creazione di regole di associazione, che è possibile utilizzare in Market basket analysis.
Algoritmi di analisi delle sequenze che consentono di riepilogare le sequenze o gli episodi frequenti nei dati, ad esempio un flusso di percorso Web.
Tuttavia, non esiste alcun motivo per cui sia necessario limitarsi all'utilizzo di un solo algoritmo nelle soluzioni. Analisti esperti utilizzeranno qualche volta un algoritmo per determinare gli input più efficaci, ovvero variabili, quindi applicheranno un algoritmo diverso per stimare un risultato specifico in base a tali dati. Data Mining di SQL Server consente di compilare più modelli in una sola struttura di data mining, pertanto all'interno di una singola soluzione di data mining è possibile utilizzare un algoritmo di clustering, un modello di alberi delle decisioni e un modello Naive Bayes per ottenere viste diverse sui dati. È possibile utilizzare inoltre più algoritmi in una singola soluzione per eseguire attività separate. Ad esempio, è possibile utilizzare la regressione per ottenere previsioni finanziarie e utilizzare un algoritmo della rete neurale per eseguire un'analisi dei fattori che incidono sulle vendite.
Scelta di un algoritmo in base all'attività
Per facilitare la selezione di un algoritmo da utilizzare con un'attività specifica, nella tabella seguente sono disponibili suggerimenti sui tipi di attività per cui ciascun algoritmo viene utilizzato in modo tradizionale.
Esempi di attività |
Algoritmo Microsoft da utilizzare |
---|---|
Stima di un attributo discreto
|
Algoritmo Microsoft Decision Trees Algoritmo Microsoft Naive Bayes |
Stima di un attributo continuo
|
Algoritmo Microsoft Decision Trees |
Stima di una sequenza
|
|
Ricerca di gruppi di elementi comuni nelle transazioni
|
|
Ricerca di gruppi di elementi simili
|
Contenuto correlato
Nella tabella seguente vengono forniti i collegamenti a risorse didattiche per ognuno degli algoritmi di data mining disponibili in Analysis Services:
Attività correlate
Argomento |
Descrizione |
---|---|
Determinare l'algoritmo utilizzato da un modello di data mining |
Eseguire query sui parametri utilizzati per creare un modello di data mining |
Creare un algoritmo plug-in personalizzato |
|
Esplorare un modello utilizzando un visualizzatore specifico dell'algoritmo |
|
Visualizzare il contenuto di un modello utilizzando un formato di tabella generico |
Visualizzare un modello utilizzando Microsoft Generic Content Tree Viewer |
Acquisire informazioni sulla configurazione dei dati e sull'utilizzo degli algoritmi per la creazione di modelli |