Progetti di data mining (Analysis Services - Data mining)
Quando si sviluppa una soluzione di data mining in Analysis Services, si crea innanzitutto un progetto di Analysis Services. All'interno di questo progetto si definisce l'origine dei dati che verranno utilizzati per l'analisi, quindi si configura un modello che include un algoritmo e istruzioni personalizzate per la gestione dei dati. È anche possibile continuare a testare e ridefinire il modello all'interno del progetto. Una volta ottenuta la soluzione desiderata, è possibile distribuirla in un altro server o utilizzarla in un'applicazione per fornire stime e analisi.
Nelle sezioni seguenti vengono descritti strumenti e processi per la creazione di una soluzione di data mining e vengono forniti collegamenti alle risorse da utilizzare per ogni passaggio.
Creazione di un progetto di Analysis Services
Nello sviluppo di una soluzione di data mining è necessario creare innanzitutto un nuovo progetto di Analysis Services mediante Business Intelligence Development Studio. Ogni progetto di data mining contiene quattro tipi di oggetto: origini dati, viste origine dati che sono basate sulle origini dati, strutture di data mining che definiscono la modalità di utilizzo dei dati nel modello e modelli di data mining mediante cui vengono creati e archiviati gli schemi.
Per ulteriori informazioni:Creating DMX Prediction Queries, Data Mining Extensions (DMX) Statement ReferenceDefinizione di un progetto di Analysis Services, Definizione di un'origine dei dati utilizzando la Creazione guidata vista origine dati (Analysis Services)
Definizione di un'origine dei dati
L'origine dei dati definisce la stringa di connessione e le informazioni di autenticazione utilizzate dal server Analysis Services per connettersi all'origine dati. L'origine dati può contenere più tabelle o viste. In Analysis Services possono essere utilizzati set di dati provenienti da database relazionali e di elaborazione analitica in linea (OLAP) o da provider esterni.
Dopo avere definito la connessione a un'origine dati, viene creata una vista che individua i dati specifici rilevanti per il modello. La vista origine dati consente inoltre di personalizzare la modalità in cui i dati nell'origine dati vengono forniti al modello di data mining. È possibile modificare la struttura dei dati in modo da renderla più rilevante per il progetto oppure scegliere solo determinati tipi di dati. Se si desidera filtrare i dati, è possibile eseguire questa operazione nella vista origine dati o utilizzare filtri applicati al livello del modello.
I requisiti relativi alla quantità di dati necessari e alla modalità di pulizia e formattazione dei dati variano a seconda dell'algoritmo utilizzato per analizzare tali dati.
Per ulteriori informazioni:Definizione di una vista origine dati (Analysis Services)
Aggiunta di strutture di data mining a un progetto di Analysis Services
Quando si dispone di una quantità di dati sufficiente per iniziare l'analisi, si selezionano le colonne di dati più rilevanti per le esigenze aziendali e si aggiungono strutture di data mining al progetto. Una struttura di data mining definisce le colonne di dati e le colonne con tabelle nidificate ottenute dalla vista origine dati o da un cubo OLAP esistente nel progetto.
Per aggiungere una nuova struttura di data mining, avviare la Creazione guidata modello di data mining che assiste l'utente nel processo di definizione dei dati e, facoltativamente, di creazione di un modello di data mining iniziale. Quando si crea una struttura, è anche possibile partizionare i dati per includere un training set, utilizzato per la generazione di modelli, e un set di dati di testing, che può essere utilizzato per testare o convalidare tutti i modelli di data mining basati su tale struttura. Per modificare le strutture di data mining esistenti, inclusa l'aggiunta di colonne e tabelle nidificate, è possibile utilizzare la scheda Struttura di data mining di Progettazione modelli di data mining.
Per ulteriori informazioni, vedere Creazione di una nuova struttura di data mining e Progettazione modelli di data miningCreazione guidata modello di data mining (Analysis Services - Data mining)
Utilizzo dei modelli di data mining
A ogni struttura di data mining si aggiunge uno o più modelli di data mining. Il modello di data mining definisce l'algoritmo o il metodo di analisi che verrà utilizzato per i dati. Ogni modello viene elaborato eseguendo i dati nella vista origine dati tramite l'algoritmo, che genera un modello matematico dei dati. Questo processo è anche noto come training del modello.
Dopo l'elaborazione del modello, è possibile esplorare visivamente il modello di data mining e creare query di stima basate su di esso.
In Analysis Services sono disponibili diverse opzioni per l'elaborazione di oggetti del modello di data mining, tra cui la possibilità di controllare quali oggetti vengono elaborati e la modalità di elaborazione. Ad esempio, è possibile elaborare una struttura e memorizzare i dati nella cache, quindi continuare ad aggiungere nuovi modelli alla struttura. Se i dati sono memorizzati nella cache, è possibile utilizzare query drill-through per restituire informazioni dettagliate sui casi utilizzati nel modello.
Per ulteriori informazioni, vedere Algoritmi di data mining (Analysis Services - Data mining), Elaborazione di oggetti di Analysis Services, Utilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining).
Convalida dei modelli di data mining
Dopo avere creato un modello, è possibile analizzare i risultati e decidere quali modelli offrono prestazioni ottimali. Nella scheda Visualizzatore modello di data mining in Progettazione modelli di data mining di Analysis Services sono disponibili visualizzatori per ogni tipo di modello di data mining che possono essere utilizzati per esplorare i modelli di data mining.
Nella scheda Grafico accuratezza modello di data mining della finestra di progettazione di Analysis Services sono disponibili strumenti che consentono di confrontare direttamente i modelli di data mining e di scegliere quello più accurato o più utile. Tra questi strumenti sono inclusi un grafico di accuratezza, un grafico dei profitti e una matrice di classificazione.
È anche possibile utilizzare il report convalida incrociata, una nuova funzionalità di SQL Server 2008, per eseguire il campionamento secondario iterativo dei dati per determinare se il modello è influenzato da un determinato set di dati. Le statistiche fornite dal report possono essere utilizzate per confrontare in modo obiettivo modelli e per valutare la qualità dei dati di training.
Per ulteriori informazioni:Visualizzazione di un modello di data mining, Convalida di modelli di data mining (Analysis Services - Data mining)
Creazione di stime
L'obiettivo principale della maggior parte dei progetti di data mining è l'utilizzo di un modello di data mining per la creazione di stime. Dopo avere esplorato e confrontato i modelli di data mining, è possibile utilizzare uno dei diversi strumenti disponibili per la creazione di stime. In Analysis Services è disponibile un linguaggio di query denominato DMX (Data Mining Extensions) che rappresenta la base per la creazione di stime ed è facilmente configurabile tramite script. Per facilitare la creazione delle query di stima DMX, SQL Server include un generatore di query, disponibile in SQL Server Management Studio e in Business Intelligence Development Studio, e i modelli DMX per l'editor di query di Management Studio. In BI Development Studio è possibile accedere al generatore di query dalla scheda Stima modello di data mining di Progettazione modelli di data mining.
Per ulteriori informazioni:Creazione di query di stima DMX, Guida di riferimento alle istruzioni DMX (Data Mining Extensions)
SQL Server Management Studio
Dopo aver creato i modelli per il progetto di data mining tramite BI Development Studio, è possibile gestire e utilizzare i modelli e creare stime tramite Management Studio. Tramite gli strumenti di query di SQL Server Management Studio, è possibile esplorare i dati nei modelli, creare query contenuto complesse o gestire oggetti di data mining archiviati in un'istanza di SQL Server.
Per ulteriori informazioni:Data Mining in SQL Server Management StudioData mining in SQL Server Management Studio
SQL Server Reporting Services
Dopo aver creato un modello di data mining, è possibile distribuire i risultati a un gruppo di destinatari più ampio. Poiché i risultati di data mining vengono archiviati in uno schema coerente facilmente accessibile tramite query di database, è possibile utilizzare vari strumenti client per presentare i risultati delle analisi, esplorare gli schemi nel modello o eseguire stime.
Progettazione report, disponibile in MicrosoftSQL ServerReporting Services, consente di creare report per presentare le informazioni contenute in un modello di data mining. È possibile utilizzare il risultato di una query DMX come base di un report e quindi sfruttare i vantaggi delle funzionalità di parametrizzazione e di formattazione disponibili in Reporting Services.
Per ulteriori informazioni, vedere Utilizzo di Progettazione query DMX per Analysis Services (Reporting Services) e Integrazione di Reporting Services nelle applicazioni
Utilizzo del data mining a livello di programmazione
Analysis Services offre vari strumenti per l'utilizzo del data mining a livello di programmazione. Il linguaggio DMX include istruzioni che consentono di creare e utilizzare i modelli di data mining, nonché di eseguire il relativo training. È inoltre possibile eseguire tali attività tramite una combinazione dei linguaggi XMLA (XML for Analysis) e ASSL (Analysis Services Scripting Language), oppure mediante la libreria AMO (Analysis Management Objects).
È possibile accedere a tutti i metadati associati al data mining tramite i set di righe dello schema di data mining. Ad esempio, è possibile utilizzare i set di righe dello schema per determinare i tipi di dati supportati da un algoritmo o i nomi dei modelli esistenti in un database.
Per ulteriori informazioni:Guida di riferimento a DMX (Data Mining Extensions), Set di righe dello schema di data mining, Utilizzo di XML for Analysis in Analysis Services (XMLA)