Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
Il data mining è il processo di individuazione di informazioni utilizzabili da set di dati di grandi dimensioni. Il data mining usa l'analisi matematica per derivare modelli e tendenze esistenti nei dati. In genere, questi modelli non possono essere individuati dall'esplorazione tradizionale dei dati perché le relazioni sono troppo complesse o perché sono presenti troppi dati.
Questi modelli e tendenze possono essere raccolti e definiti come modello di data mining. I modelli di data mining possono essere applicati a scenari specifici, ad esempio:
Previsione: stima delle vendite, stima dei carichi del server o tempi di inattività del server
Rischio e probabilità: scegliere i clienti migliori per le mailing mirate, determinare il probabile punto di pareggio per gli scenari di rischio, assegnare probabilità alle diagnosi o ad altri risultati.
Raccomandazioni: determinare i prodotti che è probabile che vengano venduti insieme, generando raccomandazioni
Ricerca di sequenze: analisi delle selezioni dei clienti in un carrello acquisti, stima degli eventi probabili successivi
Raggruppamento: separazione di clienti o eventi in un cluster di elementi correlati, analisi e stima delle affinità
La creazione di un modello di data mining fa parte di un processo più ampio che include tutti gli elementi, tra cui porre domande sui dati e creare un modello per rispondere a tali domande, per distribuire il modello in un ambiente di lavoro. Questo processo può essere definito usando i sei passaggi di base seguenti:
Il diagramma seguente descrive le relazioni tra ogni passaggio del processo e le tecnologie in Microsoft SQL Server che è possibile usare per completare ogni passaggio.
Il processo illustrato nel diagramma è ciclico, ovvero la creazione di un modello di data mining è un processo dinamico e iterativo. Dopo aver esplorato i dati, è possibile che i dati non siano sufficienti per creare i modelli di data mining appropriati e che sia quindi necessario cercare altri dati. In alternativa, è possibile creare diversi modelli e quindi rendersi conto che i modelli non rispondono adeguatamente al problema definito e che è quindi necessario ridefinire il problema. Potrebbe essere necessario aggiornare i modelli dopo che sono stati distribuiti perché sono disponibili più dati. Ogni passaggio del processo potrebbe dover essere ripetuto più volte per creare un modello valido.
Il data mining di Microsoft SQL Server offre un ambiente integrato per la creazione e l'uso di modelli di data mining. Questo ambiente include SQL Server Development Studio, che contiene algoritmi di data mining e strumenti di query che semplificano la creazione di una soluzione completa per un'ampia gamma di progetti e SQL Server Management Studio, che contiene strumenti per l'esplorazione dei modelli e la gestione degli oggetti di data mining. Per altre informazioni, vedere Creazione di modelli multidimensionali con SQL Server Data Tools (SSDT).
Per un esempio di come è possibile applicare gli strumenti di SQL Server a uno scenario aziendale, vedere Esercitazione di base sul data mining.
Definizione del problema
Il primo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel definire chiaramente il problema e prendere in considerazione i modi in cui i dati possono essere utilizzati per fornire una risposta al problema.
Questo passaggio include l'analisi dei requisiti aziendali, la definizione dell'ambito del problema, la definizione delle metriche in base alle quali verrà valutato il modello e la definizione di obiettivi specifici per il progetto di data mining. Queste attività si traducono in domande come le seguenti:
Che cosa stai cercando? Quali tipi di relazioni si sta cercando di trovare?
Il problema che si sta tentando di risolvere riflette i criteri o i processi dell'azienda?
Si desidera eseguire stime dal modello di data mining o semplicemente cercare modelli e associazioni interessanti?
Quale risultato o attributo si vuole provare a stimare?
Quali tipi di dati sono disponibili e quali tipi di informazioni si trovano in ogni colonna? Se sono presenti più tabelle, come sono correlate le tabelle? È necessario eseguire operazioni di pulizia, aggregazione o elaborazione per rendere i dati utilizzabili?
Come vengono distribuiti i dati? I dati sono stagionali? I dati rappresentano in modo accurato i processi dell'azienda?
Per rispondere a queste domande, potrebbe essere necessario condurre uno studio sulla disponibilità dei dati per analizzare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non supportano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto.
È anche necessario considerare i modi in cui i risultati del modello possono essere incorporati negli indicatori di prestazioni chiave (KPI) usati per misurare lo stato di avanzamento aziendale.
Preparazione dei dati
Il secondo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel consolidare e pulire i dati identificati nel passaggio Definizione del problema .
I dati possono essere sparsi in un'azienda e archiviati in formati diversi o possono contenere incoerenze, ad esempio voci non corrette o mancanti. Ad esempio, i dati potrebbero indicare che un cliente ha acquistato un prodotto prima che fosse offerto sul mercato, oppure che il cliente faccia acquisti regolarmente in un negozio situato a 3.200 chilometri da casa sua.
La pulizia dei dati non riguarda solo la rimozione di dati non validi o l'interpolazione di valori mancanti, ma la ricerca di correlazioni nascoste nei dati, l'identificazione delle origini dei dati più accurate e la determinazione delle colonne più appropriate per l'uso nell'analisi. Ad esempio, è necessario usare la data di spedizione o la data dell'ordine? Il miglior fattore di influenza delle vendite è la quantità, il prezzo totale o un prezzo scontato? I dati incompleti, i dati errati e gli input che appaiono separati, ma in realtà sono strettamente correlati, possono influenzare i risultati del modello in modi non previsti.
Pertanto, prima di iniziare a compilare modelli di data mining, è necessario identificare questi problemi e determinare come risolverli. Per il data mining si lavora in genere con un set di dati molto grande e non è possibile esaminare ogni transazione per la qualità dei dati; Potrebbe pertanto essere necessario usare una forma di profilatura dei dati e strumenti automatizzati di pulizia e filtro dei dati, ad esempio quelli forniti in Integration Services, Microsoft SQL Server 2012 Master Data Services o SQL Server Data Quality Services per esplorare i dati e trovare le incoerenze. Per ulteriori informazioni, vedi queste risorse:
È importante notare che i dati usati per il data mining non devono essere archiviati in un cubo OLAP (Online Analytical Processing) o anche in un database relazionale, anche se è possibile usarli entrambi come origini dati. È possibile eseguire il data mining usando qualsiasi origine di dati definita come origine dati di Analysis Services. Possono includere file di testo, cartelle di lavoro di Excel o dati di altri provider esterni. Per altre informazioni, vedere Origini dati supportate (SSAS multidimensionale).
Esplorazione dei dati
Il terzo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nell'esplorare i dati preparati.
È necessario comprendere i dati per prendere decisioni appropriate quando si creano i modelli di data mining. Le tecniche di esplorazione includono il calcolo dei valori minimo e massimo, il calcolo delle deviazioni medie e standard e l'analisi della distribuzione dei dati. Ad esempio, è possibile determinare esaminando i valori massimi, minimi e medi che i dati non sono rappresentativi dei clienti o dei processi aziendali e che pertanto è necessario ottenere dati più bilanciati o esaminare i presupposti che sono la base per le aspettative. Le deviazioni standard e altri valori di distribuzione possono fornire informazioni utili sulla stabilità e l'accuratezza dei risultati. Una deviazione standard di grandi dimensioni può indicare che l'aggiunta di altri dati può aiutare a migliorare il modello. I dati fortemente deviati da una distribuzione standard potrebbero essere asimmetrici o rappresentare un'immagine accurata di un problema reale, ma rendere difficile adattare un modello ai dati.
Esplorando i dati alla luce della propria comprensione del problema aziendale, è possibile decidere se il set di dati contiene dati difettosi e quindi è possibile definire una strategia per risolvere i problemi o acquisire una comprensione più approfondita dei comportamenti tipici dell'azienda.
È possibile usare strumenti come Master Data Services per creare canvas di origini dati disponibili e determinarne la disponibilità per il data mining. È possibile usare strumenti come SQL Server Data Quality Services o Data Profiler in Integration Services per analizzare la distribuzione dei dati e correggere i problemi, ad esempio dati errati o mancanti.
Dopo aver definito le origini, le combini in una visualizzazione d'origine dati usando lo strumento Progettazione visualizzazione origine dati in SQL Server Data Tools. Per altre informazioni, vedere Viste origine dati nei modelli multidimensionali. Questa finestra di progettazione contiene anche alcuni strumenti che è possibile usare per esplorare i dati e verificare che funzioni per la creazione di un modello. Per altre informazioni, vedere Esplorare i dati in una vista origine dati (Analysis Services).
Si noti che, quando si crea un modello, Analysis Services crea automaticamente riepiloghi statistici dei dati contenuti nel modello, che possono essere interrogati e utilizzati nei report o per ulteriori analisi. Per altre informazioni, vedere Query di data mining.
Creazione di modelli
Il quarto passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel compilare il modello o i modelli di data mining. Si useranno le conoscenze acquisite nel passaggio Esplorazione dei dati per definire e creare i modelli.
Per definire le colonne di dati che si desidera utilizzare, creare una struttura di data mining. La struttura di data mining è collegata all'origine dei dati, ma non contiene effettivamente dati finché non vengono elaborati. Quando si elabora la struttura di data mining, Analysis Services genera aggregazioni e altre informazioni statistiche che possono essere utilizzate per l'analisi. Queste informazioni possono essere utilizzate da qualsiasi modello di data mining basato sulla struttura . Per ulteriori informazioni sul modo in cui le strutture di Data Mining sono correlate ai modelli di Data Mining, vedere Architettura logica (Analysis Services - Data Mining).
Prima dell'elaborazione della struttura e del modello, un modello di data mining è solo un contenitore che specifica le colonne usate per l'input, l'attributo che si sta stimando e i parametri che indicano all'algoritmo come elaborare i dati. L'elaborazione di un modello viene spesso chiamata training. Il training si riferisce al processo di applicazione di un algoritmo matematico specifico ai dati nella struttura per estrarre i modelli. I modelli disponibili nel processo di training dipendono dalla selezione dei dati di training, dall'algoritmo scelto e dalla modalità di configurazione dell'algoritmo. SQL Server 2014 contiene molti algoritmi diversi, ognuno adatto a un tipo diverso di attività e a ogni tipo di modello. Per un elenco degli algoritmi forniti in SQL Server 2014, vedere Algoritmi di data mining (Analysis Services - Data mining).
È anche possibile usare i parametri per modificare ogni algoritmo ed è possibile applicare filtri ai dati di training per usare solo un subset dei dati, creando risultati diversi. Dopo aver passato i dati attraverso il modello, l'oggetto modello di data mining contiene riepiloghi e modelli su cui è possibile eseguire query o usare per la stima.
È possibile definire un nuovo modello utilizzando la Creazione guidata di data mining in SQL Server Data Tools oppure il linguaggio DMX (Data Mining Extensions). Per ulteriori informazioni su come utilizzare la Creazione guidata di data mining, vedere Creazione guidata di data mining (Analysis Services - Data mining). Per altre informazioni su come usare DMX, vedere Informazioni di riferimento sulle estensioni di data mining (DMX).
È importante ricordare che ogni volta che i dati vengono modificati, è necessario aggiornare sia la struttura del data mining che il modello del data mining. Quando si aggiorna una struttura di data mining rielaborandola, Analysis Services recupera i dati dall'origine, inclusi i nuovi dati se l'origine viene aggiornata dinamicamente e ripopola la struttura di data mining. Se si dispone di modelli basati sulla struttura, è possibile scegliere di aggiornare i modelli basati sulla struttura, ovvero di ripetere il training sui nuovi dati oppure lasciare invariati i modelli. Per altre informazioni, vedere Requisiti e considerazioni sull'elaborazione (data mining).
Esplorazione e convalida dei modelli
Il quinto passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nell'esplorare i modelli di data mining creati e testarne l'efficacia.
Prima di distribuire un modello in un ambiente di produzione, è necessario testare le prestazioni del modello. Inoltre, quando si compila un modello, in genere si creano più modelli con configurazioni diverse e si testano tutti i modelli per verificare quali risultati migliori per il problema e i dati.
Analysis Services offre strumenti che consentono di separare i dati in set di dati di training e test, in modo da poter valutare con precisione le prestazioni di tutti i modelli sugli stessi dati. Usare il set di dati di training per compilare il modello e il set di dati di test per testare l'accuratezza del modello creando query di stima. In SQL Server 2014 Analysis Services (SSAS), questo partizionamento può essere eseguito automaticamente durante la compilazione del modello di data mining. Per ulteriori informazioni, consultare Test e validazione (Data Mining).
È possibile esplorare le tendenze e i modelli individuati dagli algoritmi usando i visualizzatori in Designer di Data Mining in SQL Server Data Tools. Per ulteriori informazioni, vedere Visualizzatori di modelli di data mining. È anche possibile testare quanto bene i modelli creano previsioni utilizzando strumenti nel designer, come il grafico di innalzamento e la matrice di classificazione. Per verificare se il modello è specifico dei dati o può essere usato per eseguire inferenze sulla popolazione generale, è possibile usare la tecnica statistica denominata convalida incrociata per creare automaticamente subset dei dati e testare il modello su ogni subset. Per ulteriori informazioni, consultare Test e validazione (Data Mining).
Se nessuno dei modelli creati nel passaggio Compilazione di modelli funziona correttamente, potrebbe essere necessario tornare a un passaggio precedente del processo e ridefinire il problema o reinvestire i dati nel set di dati originale.
Distribuzione e aggiornamento di modelli
L'ultimo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel distribuire i modelli che hanno eseguito il meglio in un ambiente di produzione.
Dopo l'esistenza dei modelli di data mining in un ambiente di produzione, è possibile eseguire molte attività, a seconda delle esigenze. Di seguito sono riportate alcune delle attività che è possibile eseguire:
Usare i modelli per creare stime, che è quindi possibile usare per prendere decisioni aziendali. SQL Server fornisce il linguaggio DMX che è possibile usare per creare query di stima e Generatore query di stima per facilitare la compilazione delle query. Per altre informazioni, vedere Informazioni di riferimento sulle estensioni di data mining (DMX).
Creare query sul contenuto per recuperare statistiche, regole o formule dal modello. Per altre informazioni, vedere Query di data mining.
Incorporare la funzionalità di data mining direttamente in un'applicazione. È possibile includere Analysis Management Objects (AMO), che contiene un set di oggetti che l'applicazione può usare per creare, modificare, elaborare ed eliminare strutture di data mining e modelli di data mining. In alternativa, è possibile inviare messaggi XML for Analysis (XMLA) direttamente a un'istanza di Analysis Services.
Utilizzare Integration Services per creare un pacchetto in cui viene usato un modello di data mining per separare in modo intelligente i dati in ingresso in più tabelle. Ad esempio, se un database viene aggiornato continuamente con potenziali clienti, è possibile usare un modello di data mining insieme a Integration Services per suddividere i dati in ingresso in clienti che probabilmente acquistano un prodotto e i clienti che probabilmente non acquistano un prodotto.
Creare un report che consente agli utenti di eseguire direttamente query su un modello di data mining esistente. Per altre informazioni, vedere Reporting Services in SQL Server Data Tools (SSDT).
Aggiornare i modelli dopo la revisione e l'analisi. Per qualsiasi aggiornamento è necessario rielaborare i modelli. Per altre informazioni, vedere Elaborazione di oggetti di data mining.
Aggiornare i modelli in modo dinamico, man mano che vengono inseriti più dati nell'organizzazione e apportare modifiche costanti per migliorare l'efficacia della soluzione deve far parte della strategia di distribuzione. Per altre informazioni, vedere Gestione di soluzioni e oggetti di data mining