Concetti relativi al data mining

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato sospeso in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

Il data mining è il processo di individuazione di informazioni utilizzabili da set di dati di grandi dimensioni. Il data mining usa l'analisi matematica per derivare modelli e tendenze esistenti nei dati. In genere, questi modelli non possono essere individuati dall'esplorazione tradizionale dei dati perché le relazioni sono troppo complesse o perché sono presenti troppi dati.

Questi modelli e tendenze possono essere raccolti e definiti come modello di data mining. I modelli di data mining possono essere applicati a scenari specifici, ad esempio:

Previsione: stima delle vendite, stima dei carichi del server o tempi di inattività del server
Rischio e probabilità: scegliere i clienti migliori per le mailing mirate, determinare il probabile punto di pareggio per gli scenari di rischio, assegnare probabilità alle diagnosi o ad altri esiti.
Raccomandazioni: determinare i prodotti che è probabile che vengano venduti insieme, generando raccomandazioni
Ricerca di sequenze: analisi delle selezioni dei clienti in un carrello acquisti, stima degli eventi probabili successivi
Raggruppamento: separazione di clienti o eventi in un cluster di elementi correlati, analisi e stima delle affinità

La creazione di un modello di data mining fa parte di un processo più ampio che include tutti gli elementi, tra cui porre domande sui dati e creare un modello per rispondere a tali domande, per distribuire il modello in un ambiente di lavoro. Questo processo può essere definito usando i sei passaggi di base seguenti:

Definizione del problema
Preparazione dei dati
Esplorazione dei dati
Creazione di modelli
Esplorazione e convalida dei modelli
Distribuzione e aggiornamento di modelli

Il diagramma seguente descrive le relazioni tra ogni passaggio del processo e le tecnologie in Microsoft SQL Server che è possibile usare per completare ogni passaggio.

Passaggi chiave del processo di data mining

Il processo illustrato nel diagramma è ciclico, ovvero la creazione di un modello di data mining è un processo dinamico e iterativo. Dopo aver esplorato i dati, è possibile che i dati non siano sufficienti per creare i modelli di data mining appropriati e che sia quindi necessario cercare altri dati. In alternativa, è possibile creare diversi modelli e quindi rendersi conto che i modelli non rispondono adeguatamente al problema definito e che è quindi necessario ridefinire il problema. Potrebbe essere necessario aggiornare i modelli dopo che sono stati distribuiti perché sono disponibili più dati. Ogni passaggio del processo potrebbe dover essere ripetuto più volte per creare un modello valido.

Il data mining di Microsoft SQL Server offre un ambiente integrato per la creazione e l'uso di modelli di data mining. Questo ambiente include SQL Server Development Studio, che contiene algoritmi di data mining e strumenti di query che semplificano la creazione di una soluzione completa per un'ampia gamma di progetti e SQL Server Management Studio, che contiene strumenti per l'esplorazione dei modelli e la gestione degli oggetti di data mining. Per altre informazioni, vedere Creazione di modelli multidimensionali con SQL Server Data Tools (SSDT).

Per un esempio di come è possibile applicare gli strumenti di SQL Server a uno scenario aziendale, vedere Esercitazione di base sul data mining.

Definizione del problema

Il primo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel definire chiaramente il problema e prendere in considerazione i modi in cui i dati possono essere utilizzati per fornire una risposta al problema.

Primo passaggio del data mining: definizione del problema

Questo passaggio include l'analisi dei requisiti aziendali, la definizione dell'ambito del problema, la definizione delle metriche in base alle quali verrà valutato il modello e la definizione di obiettivi specifici per il progetto di data mining. Queste attività si traducono in domande come le seguenti:

Che cosa stai cercando? Quali tipi di relazioni si sta cercando di trovare?
Il problema che si sta tentando di risolvere riflette i criteri o i processi dell'azienda?
Si desidera eseguire stime dal modello di data mining o semplicemente cercare modelli e associazioni interessanti?
Quale risultato o attributo si vuole provare a stimare?
Quali tipi di dati sono disponibili e quali tipi di informazioni si trovano in ogni colonna? Se sono presenti più tabelle, come sono correlate le tabelle? È necessario eseguire operazioni di pulizia, aggregazione o elaborazione per rendere i dati utilizzabili?
Come vengono distribuiti i dati? I dati sono stagionali? I dati rappresentano in modo accurato i processi dell'azienda?

Per rispondere a queste domande, potrebbe essere necessario condurre uno studio sulla disponibilità dei dati per analizzare le esigenze degli utenti aziendali in relazione ai dati disponibili. Se i dati non supportano le esigenze degli utenti, potrebbe essere necessario ridefinire il progetto.

È anche necessario considerare i modi in cui i risultati del modello possono essere incorporati negli indicatori di prestazioni chiave (KPI) usati per misurare lo stato di avanzamento aziendale.

Preparazione dei dati

Il secondo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel consolidare e pulire i dati identificati nel passaggio Definizione del problema .

Secondo passo del data mining: preparazione dei dati

I dati possono essere sparsi in un'azienda e archiviati in formati diversi o possono contenere incoerenze, ad esempio voci non corrette o mancanti. Ad esempio, i dati potrebbero indicare che un cliente ha acquistato un prodotto prima che fosse offerto sul mercato, o che il cliente fa acquisti regolarmente in un negozio situato a 2.000 miglia da casa sua.

La pulizia dei dati non riguarda solo la rimozione di dati non validi o l'interpolazione di valori mancanti, ma la ricerca di correlazioni nascoste nei dati, l'identificazione delle origini dei dati più accurate e la determinazione delle colonne più appropriate per l'uso nell'analisi. Ad esempio, è necessario usare la data di spedizione o la data dell'ordine? Il miglior fattore di influenza delle vendite è la quantità, il prezzo totale o un prezzo scontato? I dati incompleti, i dati errati e gli input che appaiono separati, ma in realtà sono strettamente correlati, possono influenzare i risultati del modello in modi non previsti.

Pertanto, prima di iniziare a compilare modelli di data mining, è necessario identificare questi problemi e determinare come risolverli. Per il data mining si lavora in genere con un set di dati molto grande e non è possibile esaminare ogni transazione per la qualità dei dati; Potrebbe pertanto essere necessario usare una forma di profilatura dei dati e strumenti automatizzati di pulizia e filtro dei dati, ad esempio quelli forniti in Integration Services, Microsoft SQL Server 2012 Master Data Services o SQL Server Data Quality Services per esplorare i dati e trovare le incoerenze. Per ulteriori informazioni, vedi queste risorse:

È importante notare che i dati usati per il data mining non devono essere archiviati in un cubo OLAP (Online Analytical Processing) o anche in un database relazionale, anche se è possibile usarli entrambi come origini dati. È possibile eseguire il data mining usando qualsiasi origine di dati definita come origine dati di SQL Server Analysis Services. Possono includere file di testo, cartelle di lavoro di Excel o dati di altri provider esterni. Per altre informazioni, vedere Origini dati supportate (SSAS - Multidimensionale).

Esplorazione dei dati

Il terzo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nell'esplorare i dati preparati.

Terzo passaggio del data mining: esplorare i dati

È necessario comprendere i dati per prendere decisioni appropriate quando si creano i modelli di data mining. Le tecniche di esplorazione includono il calcolo dei valori minimo e massimo, il calcolo delle deviazioni medie e standard e l'analisi della distribuzione dei dati. Ad esempio, è possibile determinare esaminando i valori massimi, minimi e medi che i dati non sono rappresentativi dei clienti o dei processi aziendali e che pertanto è necessario ottenere dati più bilanciati o esaminare i presupposti che sono la base per le aspettative. Le deviazioni standard e altri valori di distribuzione possono fornire informazioni utili sulla stabilità e l'accuratezza dei risultati. Una deviazione standard di grandi dimensioni può indicare che l'aggiunta di altri dati può aiutare a migliorare il modello. I dati fortemente deviati da una distribuzione standard potrebbero essere asimmetrici o rappresentare un'immagine accurata di un problema reale, ma rendere difficile adattare un modello ai dati.

Esplorando i dati alla luce della propria comprensione del problema aziendale, è possibile decidere se il set di dati contiene dati difettosi e quindi è possibile definire una strategia per risolvere i problemi o acquisire una comprensione più approfondita dei comportamenti tipici dell'azienda.

È possibile usare strumenti come Master Data Services per creare canvas di origini dati disponibili e determinarne la disponibilità per il data mining. È possibile usare strumenti come SQL Server Data Quality Services o Data Profiler in Integration Services per analizzare la distribuzione dei dati e correggere i problemi, ad esempio dati errati o mancanti.

Dopo aver definito le origini, combinarle in una vista Origine dati usando Progettazione vista origine dati in SQL Server Data Tools. Per altre informazioni, vedere Viste origine dati nei modelli multidimensionali. Questa finestra di progettazione contiene anche alcuni strumenti che è possibile usare per esplorare i dati e verificare che funzioni per la creazione di un modello. Per ulteriori informazioni, consultare Esplorare i dati in una vista di origini dati (Analysis Services).

Si noti che quando si crea un modello, SQL Server Analysis Services crea automaticamente riepiloghi statistici dei dati contenuti nel modello, che è possibile eseguire query per l'uso nei report o ulteriori analisi. Per altre informazioni, vedere Query di data mining.

Creazione di modelli

Il quarto passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel compilare il modello o i modelli di data mining. Si useranno le conoscenze acquisite nel passaggio Esplorazione dei dati per definire e creare i modelli.

Quarto passaggio del data mining: compilazione di modelli di data mining

Definisci le colonne di dati che si desidera utilizzare creando una struttura di data mining. La struttura di data mining è collegata all'origine dei dati, ma non contiene effettivamente dati finché non vengono elaborati. Quando si elabora la struttura di data mining, SQL Server Analysis Services genera aggregazioni e altre informazioni statistiche che possono essere usate per l'analisi. Queste informazioni possono essere utilizzate da qualsiasi modello di mining basato su una struttura. Per ulteriori informazioni su come le strutture di mining sono correlate ai modelli di data mining, consultare Architettura logica (Analysis Services - Data Mining).

Prima dell'elaborazione della struttura e del modello, un modello di data mining è solo un contenitore che specifica le colonne usate per l'input, l'attributo che si sta stimando e i parametri che indicano all'algoritmo come elaborare i dati. L'elaborazione di un modello viene spesso chiamata training. Il training si riferisce al processo di applicazione di un algoritmo matematico specifico ai dati nella struttura per estrarre i modelli. I modelli disponibili nel processo di training dipendono dalla selezione dei dati di training, dall'algoritmo scelto e dalla modalità di configurazione dell'algoritmo. SQL Server 2017 contiene molti algoritmi diversi, ognuno adatto a un tipo diverso di attività e ognuno di essi crea un tipo diverso di modello. Per un elenco degli algoritmi forniti in SQL Server 2017, vedere Algoritmi di Data Mining (Analysis Services - Data Mining).

È anche possibile usare i parametri per modificare ogni algoritmo ed è possibile applicare filtri ai dati di training per usare solo un subset dei dati, creando risultati diversi. Dopo aver passato i dati attraverso il modello, l'oggetto modello di data mining contiene riepiloghi e modelli su cui è possibile eseguire query o usare per la stima.

È possibile definire un nuovo modello utilizzando la Creazione guidata di Data Mining (Data Mining Wizard) in SQL Server Data Tools o utilizzando il linguaggio DMX (Data Mining Extensions). Per ulteriori informazioni su come utilizzare la Creazione guidata di Data Mining, vedere Creazione guidata di Data Mining (Analysis Services - Data Mining). Per altre informazioni su come usare DMX, vedere Informazioni di riferimento sulle estensioni di data mining (DMX).

È importante ricordare che ogni volta che i dati vengono modificati, è necessario aggiornare sia la struttura di data mining che il modello di data mining. Quando si aggiorna una struttura di data mining rielaborandola, SQL Server Analysis Services recupera i dati dall'origine, inclusi i nuovi dati se l'origine viene aggiornata dinamicamente e ripopola la struttura di data mining. Se si dispone di modelli basati sulla struttura, è possibile scegliere di aggiornare i modelli basati sulla struttura, ovvero di ripetere il training sui nuovi dati oppure lasciare invariati i modelli. Per altre informazioni, vedere Requisiti e considerazioni sull'elaborazione (data mining).

Esplorazione e convalida dei modelli

Il quinto passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nell'esplorare i modelli di data mining creati e testarne l'efficacia.

Quinto passaggio del data mining: convalida dei modelli di data mining

Prima di distribuire un modello in un ambiente di produzione, è necessario testare le prestazioni del modello. Inoltre, quando si compila un modello, in genere si creano più modelli con configurazioni diverse e si testano tutti i modelli per verificare quali risultati migliori per il problema e i dati.

SQL Server Analysis Services offre strumenti che consentono di separare i dati in set di dati di training e test, in modo da poter valutare con precisione le prestazioni di tutti i modelli sugli stessi dati. Usare il set di dati di training per compilare il modello e il set di dati di test per testare l'accuratezza del modello creando query di stima. Questo partizionamento può essere eseguito automaticamente durante la compilazione del modello di data mining. Per altre informazioni, vedere Test e convalida (data mining).

È possibile esplorare le tendenze e i modelli individuati dagli algoritmi utilizzando i visualizzatori nel Designer di Data Mining in SQL Server Data Tools. Per ulteriori informazioni, consultare i Visualizzatori di modelli di data mining. È anche possibile testare l'efficacia dei modelli nel creare stime usando strumenti nel designer, ad esempio il grafico di lift e la matrice di classificazione. Per verificare se il modello è specifico dei dati o può essere usato per eseguire inferenze sulla popolazione generale, è possibile usare la tecnica statistica denominata convalida incrociata per creare automaticamente subset dei dati e testare il modello su ogni subset. Per altre informazioni, vedere Test e convalida (data mining).

Se nessuno dei modelli creati nel passaggio Compilazione di modelli funziona correttamente, potrebbe essere necessario tornare a un passaggio precedente del processo e ridefinire il problema o reinvestire i dati nel set di dati originale.

Distribuzione e aggiornamento di modelli

L'ultimo passaggio del processo di data mining, come evidenziato nel diagramma seguente, consiste nel distribuire i modelli che hanno eseguito il meglio in un ambiente di produzione.

Sesto passaggio del data mining: distribuzione di modelli di data mining

Dopo l'esistenza dei modelli di data mining in un ambiente di produzione, è possibile eseguire molte attività, a seconda delle esigenze. Di seguito sono riportate alcune delle attività che è possibile eseguire:

Usare i modelli per creare stime, che è quindi possibile usare per prendere decisioni aziendali. SQL Server fornisce il linguaggio DMX che è possibile usare per creare query di stima e Generatore query di stima per facilitare la compilazione delle query. Per altre informazioni, vedere Guida di riferimento a DMX (Data Mining Extensions).
Creare query sul contenuto per recuperare statistiche, regole o formule dal modello. Per altre informazioni, vedere Query di data mining.
Incorporare la funzionalità di data mining direttamente in un'applicazione. È possibile includere Analysis Management Objects (AMO), che contiene un set di oggetti che l'applicazione può usare per creare, modificare, elaborare ed eliminare strutture di data mining e modelli di data mining. In alternativa, è possibile inviare messaggi XML for Analysis (XMLA) direttamente a un'istanza di SQL Server Analysis Services. Per altre informazioni, vedere Sviluppo (Analysis Services - Data mining).
Utilizzare Integration Services per creare un pacchetto in cui viene usato un modello di data mining per separare in modo intelligente i dati in ingresso in più tabelle. Ad esempio, se un database viene aggiornato continuamente con potenziali clienti, è possibile usare un modello di data mining insieme a Integration Services per suddividere i dati in ingresso in clienti che probabilmente acquistano un prodotto e i clienti che probabilmente non acquistano un prodotto. Per altre informazioni, vedere Uso tipico di Integration Services.
Creare un report che consente agli utenti di eseguire direttamente query su un modello di data mining esistente. Per altre informazioni, vedere Reporting Services in SQL Server Data Tools (SSDT).
Aggiornare i modelli dopo la revisione e l'analisi. Per qualsiasi aggiornamento è necessario rielaborare i modelli. Per altre informazioni, vedere Elaborazione di oggetti di data mining.
Aggiornare i modelli in modo dinamico, man mano che vengono inseriti più dati nell'organizzazione e apportare modifiche costanti per migliorare l'efficacia della soluzione deve far parte della strategia di distribuzione. Per altre informazioni, vedere Gestione di soluzioni e oggetti di data mining

Vedere anche

Soluzioni di data mining
Strumenti di data mining

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-02-03