Condividi tramite


Strutture di Data Mining (Analysis Services - Data Mining)

La struttura di data mining definisce i dati da cui vengono costruiti i modelli di data mining: specifica la vista della fonte dei dati, il numero e il tipo di colonne e una partizione facoltativa in insiemi di addestramento e di test. Una singola struttura di data mining può supportare più modelli di data mining che condividono lo stesso dominio. Il diagramma seguente illustra la relazione tra la struttura di data mining e l'origine dati e i relativi modelli di data mining costitutivi.

Elaborazione dei dati: origine da strutturare al modello

La struttura di data mining nel diagramma si basa su un'origine dati che contiene più tabelle o viste collegate tramite il campo CustomerID. Una tabella contiene informazioni sui clienti, ad esempio l'area geografica, l'età, il reddito e il sesso, mentre la tabella nidificata correlata contiene più righe di informazioni aggiuntive su ogni cliente, ad esempio i prodotti acquistati dal cliente. Il diagramma mostra che più modelli possono essere creati su una struttura di mining e che i modelli possono usare diverse colonne della struttura.

Modello 1 utilizza CustomerID, reddito, età, regione e filtra i dati basati sulla regione.

Modello 2 utilizza CustomerID, Reddito, Età, Regione e filtra i dati in base all'età.

Modello 3 Usa CustomerID, Age, Gender e la tabella nidificata, senza alcun filtro.

Poiché i modelli usano colonne diverse per l'input e poiché due dei modelli limitano ulteriormente i dati usati nel modello applicando un filtro, i modelli potrebbero avere risultati molto diversi anche se si basano sugli stessi dati. Si noti che la colonna CustomerID è necessaria in tutti i modelli perché è l'unica colonna disponibile che può essere usata come chiave del case.

In questa sezione viene illustrata l'architettura di base delle strutture di data mining: come definire una struttura di data mining, come popolarla con i dati e come usarla per creare modelli. Per altre informazioni su come gestire o esportare strutture di data mining esistenti, vedere Gestione di soluzioni e oggetti di data mining.

Definizione di una struttura di data mining

La configurazione di una struttura di data mining include i passaggi seguenti:

  • Definire un'origine dati.

  • Selezionare le colonne di dati da includere nella struttura (non tutte le colonne devono essere aggiunte al modello) e definire una chiave.

  • Definire una chiave per la struttura, inclusa la chiave per la tabella ottimale, se applicabile.

  • Specificare se i dati di origine devono essere separati in un set di training e un set di test. Questo passaggio è facoltativo.

  • Elaborare la struttura.

Questi passaggi vengono descritti in modo più dettagliato nelle sezioni seguenti.

Fonti dati per le strutture di data mining

Quando si definisce una struttura di data mining, si utilizzano colonne disponibili in una vista origine dati esistente. Una vista origine dati è un oggetto condiviso che consente di combinare più origini dati e di usarle come singola origine. Le origini dati originali non sono visibili alle applicazioni client ed è possibile usare le proprietà della vista origine dati per modificare i tipi di dati, creare aggregazioni o colonne alias.

Se si compilano più modelli di data mining dalla stessa struttura di data mining, i modelli possono utilizzare colonne diverse dalla struttura. Ad esempio, è possibile creare una singola struttura e quindi creare modelli di albero delle decisioni e clustering separati da esso, con ogni modello usando colonne diverse e stimando attributi diversi.

Inoltre, ogni modello può usare le colonne della struttura in modi diversi. Ad esempio, la vista origine dati potrebbe contenere una colonna Income, che è possibile inserire in contenitori in modi diversi per modelli diversi.

La struttura di data mining archivia la definizione dell'origine dati e le colonne in esso contenute sotto forma di associazioni ai dati di origine. Per altre informazioni sui data source binding, vedere Origini dati e associazioni (SSAS multidimensionale). Si noti tuttavia che è anche possibile creare una struttura di data mining senza associarla a un'origine dati specifica usando l'istruzione DMX CREATE MINING STRUCTURE (DMX).

Colonne della struttura di mining

I blocchi costitutivi della struttura di data mining sono le colonne della struttura di data mining, che descrivono i dati contenuti nell'origine dati. Queste colonne contengono informazioni quali tipo di dati, tipo di contenuto e modalità di distribuzione dei dati. La struttura di data mining non contiene informazioni sulla modalità di utilizzo delle colonne per un modello di data mining specifico o sul tipo di algoritmo utilizzato per compilare un modello; queste informazioni vengono definite nel modello di data mining stesso.

Una struttura di data mining può contenere anche tabelle annidate. Una tabella nidificata rappresenta una relazione uno-a-molti tra l'entità di un caso e gli attributi correlati. Ad esempio, se le informazioni che descrivono il cliente si trovano in una tabella e gli acquisti del cliente risiedono in un'altra tabella, è possibile usare tabelle annidate per combinare le informazioni in un singolo caso. L'identificatore del cliente è l'entità e gli acquisti sono gli attributi correlati. Per altre informazioni su quando usare tabelle nidificate, vedere Tabelle nidificate (Analysis Services - Data mining) .

Per creare un modello di data mining in SQL Server Data Tools (SSDT), è prima necessario creare una struttura di data mining. La procedura guidata di data mining ti guida attraverso il processo di creazione di una struttura di data mining, la scelta dei dati e l'aggiunta di un modello di data mining.

Se si crea un modello di data mining utilizzando DMX (Data Mining Extensions), è possibile specificare il modello e le colonne in esso contenute e DMX creerà automaticamente la struttura di data mining richiesta. Per altre informazioni, vedere CREATE MINING MODEL (DMX).

Per ulteriori informazioni, vedere Colonne della struttura di mining.

Divisione dei dati in set di addestramento e validazione

Quando si definiscono i dati per la struttura di data mining, è anche possibile specificare che alcuni dei dati vengano usati per il training e alcuni per i test. Pertanto, non è più necessario separare i dati prima di creare una struttura di data mining. Al contrario, durante la creazione del modello, è possibile specificare che una determinata percentuale dei dati viene mantenuta per il test e il resto usato per il training oppure è possibile specificare un determinato numero di casi da usare come set di dati di test. Le informazioni sui set di dati di training e test vengono memorizzate nella cache con la struttura di data mining e, di conseguenza, lo stesso set di test può essere usato con tutti i modelli basati su tale struttura.

Per altre informazioni, vedere Set di dati di training e test.

Abilitazione del drill-through

È possibile aggiungere colonne alla struttura di data mining anche se non si prevede di utilizzare la colonna in un modello di data mining specifico. Ciò è utile se, ad esempio, si desidera recuperare gli indirizzi di posta elettronica dei clienti in un modello di clustering, senza utilizzare l'indirizzo di posta elettronica durante il processo di analisi. Per ignorare una colonna durante la fase di analisi e stima, aggiungerla alla struttura ma non specificare un utilizzo per la colonna oppure impostare il flag di utilizzo su Ignora. I dati contrassegnati in questo modo possono comunque essere usati nelle query se il drill-through è stato abilitato nel modello di data mining e, se si dispone delle autorizzazioni appropriate. Ad esempio, è possibile esaminare i cluster risultanti dall'analisi di tutti i clienti e quindi usare una query drill-through per ottenere i nomi e gli indirizzi di posta elettronica dei clienti in un determinato cluster, anche se tali colonne di dati non sono state usate per compilare il modello.

Per ulteriori informazioni, vedere Drillthrough Queries (Data Mining).

Elaborazione di strutture di data mining

Una struttura di data mining è solo un contenitore di metadati fino a quando non viene elaborata. Quando si elabora una struttura di data mining, Analysis Services crea una cache che archivia le statistiche sui dati, informazioni su come vengono discretizzati gli attributi continui e altre informazioni utilizzate successivamente dai modelli di data mining. Il modello di data mining stesso non archivia queste informazioni di riepilogo, ma fa riferimento alle informazioni memorizzate nella cache durante l'elaborazione della struttura di data mining. Pertanto, non è necessario rielaborare la struttura ogni volta che si aggiunge un nuovo modello a una struttura esistente; è possibile elaborare solo il modello.

È possibile scegliere di eliminare questa cache dopo l'elaborazione, se la cache è molto grande o si desidera rimuovere dati dettagliati. Se non si desidera memorizzare nella cache i dati, è possibile modificare la CacheMode proprietà della struttura di data mining in ClearAfterProcessing. In questo modo la cache verrà eliminata definitivamente dopo l'elaborazione di tutti i modelli. L'impostazione della proprietà su ClearAfterProcessing disabiliterà il CacheMode drill-through dal modello di data mining.

Tuttavia, dopo aver eliminato definitivamente la cache, non sarà possibile aggiungere nuovi modelli alla struttura di data mining. Se si aggiunge un nuovo modello di data mining alla struttura o si modificano le proprietà dei modelli esistenti, è necessario rielaborare prima la struttura di data mining. Per altre informazioni, vedere Requisiti e considerazioni sull'elaborazione (data mining).

Visualizzazione delle strutture di data mining

Non è possibile utilizzare visualizzatori per esplorare i dati in una struttura di data mining. Tuttavia, in SQL Server Data Tools (SSDT) è possibile usare la scheda Struttura di data mining di Progettazione modelli di data mining per visualizzare le colonne della struttura e le relative definizioni. Per altre informazioni, vedere Progettazione modelli di data mining.

Per esaminare i dati nella struttura di data mining, è possibile creare query usando DMX (Data Mining Extensions). Ad esempio, l'istruzione SELECT * FROM <structure>.CASES restituisce tutti i dati nella struttura di data mining. Per recuperare queste informazioni, la struttura di data mining deve essere stata elaborata e i risultati dell'elaborazione devono essere memorizzati nella cache.

L'istruzione SELECT * FROM <model>.CASES restituisce le stesse colonne, ma solo per i case in quel particolare modello. Per ulteriori informazioni, vedere SELECT FROM <structure>.CASES e SELECT FROM <model>.CASES (DMX).

Utilizzo di modelli di estrazione dati con strutture di analisi dati

Un modello di data mining applica un algoritmo ai dati rappresentati da una struttura di data mining. Un modello di data mining è un oggetto appartenente a una particolare struttura di data mining e il modello eredita tutti i valori delle proprietà definite dalla struttura di data mining. Il modello può utilizzare tutte le colonne contenute nella struttura di data mining o un sottoinsieme delle colonne. È possibile aggiungere più copie di una colonna di struttura a una struttura. È anche possibile aggiungere più copie di una colonna della struttura a un modello e quindi assegnare nomi o alias diversi a ogni colonna della struttura nel modello. Per altre informazioni sulle colonne della struttura di aliasing, vedere Creare un alias per una colonna modello e proprietà del modello di data mining.

Per altre informazioni sull'architettura dei modelli di data mining, vedere Modelli di data mining (Analysis Services - Data mining).

Usare i collegamenti forniti qui per ottenere ulteriori informazioni su come definire, gestire e utilizzare le strutture di mining.

Attività Collegamenti
Lavorare con strutture di mining relazionali Creare una nuova struttura di data mining relazionale

Aggiungere una tabella nidificata a una struttura di mining
Usare strutture di data mining basate su cubi OLAP Creare una nuova struttura di data mining OLAP

Filtra il cubo sorgente per una Struttura di Mining
Lavorare con colonne in una struttura mineraria Aggiungere colonne a una struttura di data mining

Rimuovere colonne da una struttura di mining
Modificare o interrogare le proprietà e i dati della struttura di data mining Modificare le proprietà di una struttura di mining
Lavorare con le origini dati sottostanti e aggiornare le fonti di dati. Modificare la vista origine dati utilizzata per una struttura di data mining

Elaborare una struttura di data mining

Vedere anche

Oggetti di database (Analysis Services - Dati multidimensionali)
Modelli di Mining (Analysis Services - Data Mining)