Condividi tramite


Creare una struttura di estrazione dati relazionale

La maggior parte dei modelli di data mining si basa su origini dati relazionali. I vantaggi della creazione di un modello di data mining relazionale sono la capacità di assemblare dati ad hoc ed eseguire il training e l'aggiornamento di un modello senza la complessità della creazione di un cubo.

Una struttura di mining relazionale può estrarre dati da fonti disparate. I dati non elaborati possono essere archiviati in tabelle, file o sistemi di database relazionali, purché i dati possano essere definiti come parte della vista origine dati. Ad esempio, è consigliabile usare una struttura di data mining relazionale se i dati si trovano in Excel, in un data warehouse di SQL Server o in un database di report di SQL Server o in origini esterne a cui si accede tramite i provider OLE DB o ODBC.

In questo argomento viene fornita una panoramica su come utilizzare la Creazione guidata per il data mining per creare una struttura di mining relazionale.

Requisiti

Processo per la creazione di una struttura di data mining relazionale

Come scegliere origini dati

Come specificare il tipo di contenuto e il tipo di dati

Perché e come creare un set di dati di validazione

Perché e come abilitare il drill-through

Requisiti

In primo luogo, è necessario disporre di un'origine dati esistente. È possibile utilizzare la finestra di progettazione origine dati per configurare un'origine dati, se non ne esiste già una. Per altre informazioni, vedere Creare un'origine dati (SSAS multidimensionale).

Usare quindi la Creazione guidata vista origine dati per assemblare i dati necessari in una singola vista origine dati. Per altre informazioni su come selezionare, trasformare, filtrare o gestire i dati con viste origine dati, vedere Viste origine dati nei modelli multidimensionali.

Panoramica del processo

Avviare Creazione guidata di data mining facendo clic con il pulsante destro del mouse sul nodo Strutture di mining in Esplora Soluzioni e scegliendo Aggiungi nuova struttura di mining. La procedura guidata ti guida attraverso i passaggi seguenti per creare la struttura di un nuovo modello relazionale di data mining.

  1. Selezionare il metodo di definizione: Qui si seleziona un tipo di origine dati e si sceglie Da database relazionale o data warehouse.

  2. Creare la struttura di data mining: determinare se si creerà solo una struttura o una struttura con un modello di data mining.

    È anche possibile scegliere un algoritmo appropriato per il modello iniziale. Per indicazioni sull'algoritmo migliore per determinate attività, vedere Algoritmi di data mining (Analysis Services - Data mining) .

  3. Seleziona vista origine dati: scegliere una vista origine dati da usare per il training del modello. La vista origine dati può contenere anche dati usati per i test o dati non correlati. È possibile scegliere i dati effettivamente usati nella struttura e nel modello. È anche possibile applicare filtri ai dati in un secondo momento.

  4. Specificare tipi di tabella: selezionare la tabella contenente i case usati per l'analisi. Per alcuni set di dati, in particolare quelli usati per la compilazione di modelli market basket, è anche possibile includere una tabella correlata, da usare come tabella nidificata.

    Per ogni tabella, devi specificare la chiave affinché l'algoritmo sappia come identificare un record univoco e i record correlati se hai aggiunto una tabella nidificata.

    Per ulteriori informazioni, vedere Colonne della struttura di mining.

  5. Specifica i dati di training: si sceglie, in questa pagina, la tabella dei casi, ovvero la tabella contenente i dati più importanti per l'analisi.

    Per alcuni set di dati, in particolare quelli usati per la creazione di modelli market basket, è anche possibile includere una tabella correlata. I valori della tabella nidificata verranno gestiti come più valori correlati a una singola riga (o caso) nella tabella principale.

  6. Specificare contenuto colonne e tipi di dati: per ogni colonna usata nella struttura è necessario scegliere sia un tipo di dati che un tipo di contenuto.

    La procedura guidata rileverà automaticamente i tipi di dati possibili, ma non è necessario usare il tipo di dati consigliato dalla procedura guidata. Ad esempio, anche se i dati contengono numeri, potrebbero essere rappresentativi di dati categorici. Alle colonne specificate come chiavi viene assegnato automaticamente il tipo di dati corretto per quel particolare tipo di modello. Per altre informazioni, vedere Colonne del modello di data mining e Tipi di Dati (Data Mining).

    Il tipo di contenuto scelto per ogni colonna usata nel modello indica all'algoritmo come devono essere elaborati i dati.

    Ad esempio, è possibile decidere di discretizzare i numeri anziché usare valori continui. È anche possibile chiedere all'algoritmo di rilevare automaticamente il tipo di contenuto migliore per la colonna. Per altre informazioni, vedere Tipi di contenuto (data mining).

  7. Crea set di test: in questa pagina è possibile indicare alla procedura guidata la quantità di dati da riservare per l'uso nel test del modello. Se i dati supportano più modelli, è consigliabile creare un set di dati di controllo, in modo che tutti i modelli possano essere testati sugli stessi dati.

    Per ulteriori informazioni, consultare Test e validazione (Data Mining).

  8. Completamento procedura guidata: in questa pagina si assegna un nome alla nuova struttura di data mining e al modello di data mining associato e si salva la struttura e il modello.

    È anche possibile impostare alcune opzioni importanti, a seconda del tipo di modello. Ad esempio, è possibile abilitare il drill-through nella struttura.

    A questo punto la struttura di data mining e il relativo modello sono solo metadati; sarà necessario elaborarli entrambi per ottenere risultati.

Come scegliere dati relazionali

Le strutture di data mining relazionali possono essere basate su tutti i dati disponibili tramite un'origine dati OLE DB. Se i dati di origine sono contenuti in più tabelle, usare una vista origine dati per assemblare le tabelle e le colonne necessarie in un'unica posizione.

Se le tabelle includono relazioni uno-a-molti, ad esempio, se disponi di più record di acquisto per ogni cliente che desideri analizzare, puoi aggiungere entrambe le tabelle e quindi usare una tabella come tabella dei casi, collegando i dati sul lato molti della relazione come tabella nidificata.

I dati in una struttura di data mining sono derivati da qualsiasi elemento nella vista origine dati esistente. È possibile modificare i dati in base alle esigenze all'interno della vista origine dati, aggiungendo relazioni o colonne derivate che potrebbero non essere presenti nei dati relazionali sottostanti. È anche possibile creare calcoli denominati o aggregazioni all'interno della vista origine dati. Queste funzionalità sono molto utili se non si ha il controllo sulla disposizione dei dati nell'origine dati o se si desidera sperimentare aggregazioni diverse di dati per i modelli di data mining.

Non è necessario usare tutti i dati disponibili; è possibile selezionare e scegliere le colonne da includere nella struttura di data mining. Tutti i modelli basati su tale struttura possono quindi usare tali colonne oppure contrassegnare determinate colonne come Ignore per un determinato modello. È possibile consentire agli utenti di un modello di data mining di eseguire il drill-down dai risultati del modello di data mining per visualizzare colonne aggiuntive della struttura di data mining non incluse nel modello di data mining stesso.

Come specificare il tipo di contenuto e il tipo di dati

Il tipo di dati è praticamente uguale ai tipi di dati specificati in SQL Server o in altre interfacce dell'applicazione: date e ore, numeri di dimensioni diverse, valori booleani, testo e altri dati discreti.

Tuttavia, i tipi di contenuto sono importanti per il data mining e influiscono sul risultato dell'analisi. Il tipo di contenuto indica all'algoritmo che cosa deve fare con i dati: i numeri devono essere trattati su una scala continua o raggruppati? Quanti valori potenziali sono presenti? Ogni valore è distinto? Se il valore è una chiave, quale tipo di chiave è , indica un valore di data/ora, una sequenza o un altro tipo di chiave?

Si noti che la scelta del tipo di dati può limitare la scelta dei tipi di contenuto. Ad esempio, non è possibile discretizzare i valori non numerici. Se non è possibile visualizzare il tipo di contenuto desiderato, è possibile fare clic su Indietro per tornare alla pagina del tipo di dati e provare un tipo di dati diverso.

Non è necessario preoccuparsi troppo di sbagliare il tipo di contenuto. È molto semplice creare un nuovo modello e modificare il tipo di contenuto all'interno del modello, purché il nuovo tipo di contenuto sia supportato dal tipo di dati impostato nella struttura di data mining. È anche molto comune creare più modelli usando tipi di contenuto diversi, come esperimento o per soddisfare i requisiti di un algoritmo diverso.

Ad esempio, se i dati contengono una colonna income, è possibile creare due modelli diversi quando si usa l'algoritmo Microsoft Decision Trees e configurare la colonna in modo alternativo come numeri continui o intervalli discreti. Tuttavia, se è stato aggiunto un modello usando l'algoritmo Microsoft Naïve Bayes, è necessario modificare la colonna solo in valori discretizzati, perché tale algoritmo non supporta numeri continui.

Perché e come suddividere i dati in set di addestramento e verifica.

Al termine della procedura guidata, è necessario decidere se partizionare i dati in set di training e test. La possibilità di effettuare il provisioning di una parte campionata casualmente dei dati per i test è molto conveniente, in quanto garantisce che un set coerente di dati di test sia disponibile per l'uso con tutti i modelli di data mining associati alla nuova struttura di data mining.

Avvertimento

Si noti che questa opzione non è disponibile per tutti i tipi di modello. Ad esempio, se si crea un modello di previsione, non sarà possibile usare l'esclusione, perché l'algoritmo delle serie temporali richiede l'assenza di lacune nei dati. Per un elenco dei tipi di modello che supportano set di dati di controllo, vedere Training e testing di set di dati.

Per creare questo set di dati di controllo, specificare la percentuale dei dati che si desidera utilizzare per il test. Tutti i dati rimanenti verranno usati per il training. Facoltativamente, è possibile impostare un numero massimo di case da usare per il test o impostare un valore di inizializzazione da usare nell'avvio del processo di selezione casuale.

La definizione del set di test di controllo viene archiviata con la struttura di data mining, in modo che ogni volta che si crea un nuovo modello in base alla struttura, il set di dati di test sarà disponibile per valutare l'accuratezza del modello. Se si elimina la cache della struttura di data mining, verranno eliminate anche le informazioni sui casi utilizzati per l'addestramento e sui casi utilizzati per i test.

Perché e come abilitare il drill-through

Quasi alla fine della procedura guidata, è possibile abilitare il drill-through. È facile perdere questa opzione, ma è una cosa importante. Il Drillthrough consente di visualizzare i dati di origine nella struttura di data mining tramite query sul modello di data mining.

Perché è utile? Si supponga di visualizzare i risultati di un modello di clustering e di voler visualizzare i clienti che sono stati inseriti in un cluster specifico. Usando il drill-through, è possibile visualizzare i dettagli, ad esempio le informazioni di contatto.

Avvertimento

Per utilizzare il drillthrough, è necessario abilitarlo quando si crea la struttura di data mining. È possibile abilitare il drill-through sui modelli in un secondo momento impostando una proprietà nel modello, ma le strutture di data mining richiedono che questa opzione venga impostata all'inizio. Per ulteriori informazioni, vedere Drillthrough Queries (Data Mining).

Vedere anche

Progettazione modelli di data mining
Creazione guidata Data Mining (Analysis Services - Data Mining)
Proprietà del modello mining
Proprietà per struttura di mining e colonne della struttura
Attività e procedure della struttura di mining