Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Per creare un modello di data mining, è innanzitutto necessario utilizzare la Creazione guidata per data mining per creare una nuova struttura di mining basata sulla nuova vista origine dati. In questa attività si userà la procedura guidata per creare una struttura di data mining e allo stesso tempo creare un modello di data mining associato basato sull'algoritmo Microsoft Neural Network.
Poiché le reti neurali sono estremamente flessibili e possono analizzare molte combinazioni di input e output, è consigliabile sperimentare diversi modi per elaborare i dati per ottenere i risultati migliori. Ad esempio, è possibile personalizzare il modo in cui la destinazione numerica per la qualità del servizio è binata o raggruppata per soddisfare requisiti aziendali specifici. A tale scopo, si aggiungerà una nuova colonna alla struttura di data mining che raggruppa i dati numerici in modo diverso e quindi si creerà un modello che utilizza la nuova colonna. Questi modelli di data mining verranno utilizzati per fare un po' di esplorazione.
Infine, quando si è appreso dal modello di rete neurale quali fattori hanno il maggiore impatto per la domanda aziendale, si creerà un modello separato per la stima e l'assegnazione dei punteggi. Si userà l'algoritmo Microsoft Logistic Regression, basato sul modello di reti neurali, ma ottimizzato per trovare una soluzione in base a input specifici.
Passi
Creare la struttura e il modello di data mining predefiniti
Usare la discretizzazione per binare la colonna stimabile
Copiare la colonna e modificare il metodo di discretizzazione per un modello diverso
Creare un alias per la colonna stimabile in modo da poter confrontare i modelli
Creare la struttura predefinita del Call Center
In Esplora soluzioni in SQL Server Data Tools (SSDT), fare clic con il pulsante destro del mouse su Strutture di data mining e selezionare Nuova struttura di data mining.
Nella pagina Benvenuti nella creazione guidata per il data mining, fare clic su Avanti.
Nella pagina Selezionare il metodo di definizione verificare che sia selezionata l'opzione Da database relazionale o data warehouse esistente e quindi fare clic su Avanti.
Nella pagina Crea la Struttura di Data Mining, verificare che l'opzione Crea struttura di mining con un modello di mining sia selezionata.
Fare clic sull'elenco a discesa per l'opzione Quale tecnica di data mining usare?, quindi selezionare Reti neurali Microsoft.
Poiché i modelli di regressione logistica si basano sulle reti neurali, è possibile riutilizzare la stessa struttura e aggiungere un nuovo modello di data mining.
Fare clic su Avanti.
La pagina Selezione vista origine dati verrà visualizzata.
In Viste origine dati disponibili selezionare
Call Center
e fare clic su Avanti.Nella pagina Specifica tipi di tabella selezionare la casella di controllo Case accanto alla tabella FactCallCenter . Non selezionare nulla per DimDate. Fare clic su Avanti.
Nella pagina Specificare i dati di training selezionare Chiave accanto alla colonna FactCallCenterID.
Selezionare le caselle di controllo
Predict
e Input.Selezionare le caselle Chiave, Input e
Predict
come illustrato nella tabella seguente.Tabelle/colonne Tasto/Ingresso/Prevedi AutomaticResponses Inserimento TempoMedioPerProblema Input/Previsione Chiamate Inserimento DateKey Non usare GiornoDellaSettimana Inserimento FactCallCenterID Chiave Problemi generati Inserimento LevelOneOperators Input/Previsione LevelTwoOperators Inserimento Ordini Input/Stima ServiceGrade Input/Stima Spostamento Inserimento Operatori Totali Non usare Tipo di Retribuzione Inserimento Si noti che sono state selezionate più colonne stimabili. Uno dei punti di forza dell'algoritmo di rete neurale è che può analizzare tutte le possibili combinazioni di attributi di input e output. Non è consigliabile eseguire questa operazione per un set di dati di grandi dimensioni, perché potrebbe aumentare in modo esponenziale il tempo di elaborazione.
Nella pagina Specifica contenuto colonne e tipo di dati verificare che la griglia contenga le colonne, i tipi di contenuto e i tipi di dati, come illustrato nella tabella seguente, quindi fare clic su Avanti.
Colonne Tipo di contenuto Tipi di dati AutomaticResponses Continuo Lungo TempoMedioPerProblema Continuo Lungo Chiamate Continuo Lungo GiornoDellaSettimana Discreto Testo FactCallCenterID Chiave Lungo Problemi generati Continuo Lungo LevelOneOperators Continuo Lungo LevelTwoOperators Continuo Lungo Ordini Continuo Lungo ServiceGrade Continuo Doppio Spostamento Discreto Testo Tipo di Retribuzione Discreto Testo Nella pagina Crea set di test deselezionare la casella di testo per l'opzione Percentuale di dati per i test. Fare clic su Avanti.
Nella pagina Completamento procedura guidata, digitare il nome della
Call Center
.Per il nome del modello di data mining digitare
Call Center Default NN
e quindi fare clic su Fine.La casella Consenti drill-through è disabilitata perché non è possibile eseguire il drill-through dei dati con i modelli di rete neurale.
In Esplora soluzioni fare clic con il pulsante destro del mouse sul nome della struttura di data mining appena creata e scegliere Elabora.
Usare la discretizzazione per binare la colonna di destinazione
Per impostazione predefinita, quando si crea un modello di rete neurale con un attributo stimabile numerico, l'algoritmo Microsoft Neural Network considera l'attributo come numero continuo. Ad esempio, l'attributo ServiceGrade è un numero che in teoria varia da 0,00 (tutte le chiamate vengono risposte) a 1,00 (tutti i chiamanti si bloccano). In questo set di dati i valori hanno la distribuzione seguente:
Di conseguenza, quando si elabora il modello, gli output potrebbero essere raggruppati in modo diverso rispetto a quanto previsto. Ad esempio, se si usa il clustering per identificare i gruppi di valori migliori, l'algoritmo divide i valori in ServiceGrade in intervalli come questo: 0.0748051948 - 0.09716216215. Anche se questo raggruppamento è matematicamente accurato, tali intervalli potrebbero non essere significativi per gli utenti aziendali.
In questo passaggio, per rendere il risultato più intuitivo, si raggruppano i valori numerici in modo diverso, creando copie della colonna di dati numerica.
Funzionamento della discretizzazione
Analysis Services offre un'ampia gamma di metodi per il raggruppamento o l'elaborazione dei dati numerici. La tabella seguente illustra le differenze tra i risultati quando l'attributo di output ServiceGrade è stato elaborato in tre modi diversi:
Considerarlo come un numero continuo.
Avere l'algoritmo che usa il clustering per identificare la migliore disposizione dei valori.
Specificando che i numeri vengono raggruppati secondo il metodo delle Aree Uguali.
Modello predefinito (continuo)
VALORE | APPOGGIARE |
---|---|
Mancante | 0 |
0.09875 | 120 |
Raggruppato secondo il raggruppamento
VALORE | APPOGGIARE |
---|---|
< 0.0748051948 | 34 |
0.0748051948 - 0.09716216215 | 27 |
0.09716216215 - 0.13297297295 | 39 |
0.13297297295 - 0.167499999975 | 10 |
>= 0,1674999999975 | 10 |
Raggruppato per aree uguali
VALORE | APPOGGIARE |
---|---|
< 0.07 | 26 |
0.07 - 0.00 | 22 |
0.09 - 0.11 | 36 |
>= 0,12 | 36 |
Annotazioni
È possibile ottenere queste statistiche dal nodo delle statistiche marginali del modello, dopo l'elaborazione di tutti i dati. Per altre informazioni sul nodo delle statistiche marginali, vedere Contenuto del modello di data mining per i modelli di rete neurale (Analysis Services - Data mining).
In questa tabella la colonna VALUE mostra come è stato gestito il numero per ServiceGrade. La colonna SUPPORT mostra il numero di case con tale valore o che è diminuito in tale intervallo.
Usare numeri continui (impostazione predefinita)
Se è stato usato il metodo predefinito, l'algoritmo calcola i risultati per 120 valori distinti, il cui valore medio è 0,09875. È anche possibile visualizzare il numero di valori mancanti.
Bin by clustering
Quando si consente all'algoritmo Microsoft Clustering di determinare il raggruppamento facoltativo di valori, l'algoritmo raggruppa i valori per ServiceGrade in cinque (5) intervalli. Il numero di casi in ogni intervallo non è distribuito uniformemente, come si può vedere dalla colonna di supporto.
Bin by equal areas
Quando si sceglie questo metodo, l'algoritmo forza i valori in bucket di dimensioni uguali, che a sua volta modificano i limiti superiori e inferiori di ogni intervallo. È possibile specificare il numero di bucket, ma si vuole evitare di avere due valori in qualsiasi bucket.
Per altre informazioni sulle opzioni di binning, vedere Metodi di discretizzazione (data mining).
In alternativa, anziché usare i valori numerici, è possibile aggiungere una colonna derivata separata che classifica i voti del servizio in intervalli di destinazione predefiniti, ad esempio Best (ServiceGrade <= 0,05), Accettabile (0,10 > ServiceGrade > 0,05) e Poor (ServiceGrade >= 0,10).
Creare una copia di una colonna e modificare il metodo di discretizzazione
Si creerà una copia della colonna di mining che contiene l'attributo di destinazione ServiceGrade e si modificherà la modalità di raggruppamento dei numeri. È possibile creare più copie di qualsiasi colonna in una struttura di data mining, incluso l'attributo previsto.
Per questa esercitazione si userà il metodo Equal Areas di discretizzazione e si specificano quattro bucket. I raggruppamenti risultanti da questo metodo sono piuttosto vicini ai valori di destinazione di interesse per gli utenti aziendali.
Per creare una copia personalizzata di una colonna nella struttura di estrazione dei dati
In Esplora soluzioni fare doppio clic sulla struttura di data mining appena creata.
Nella scheda Struttura di mining, fare clic su Aggiungi una colonna della struttura di mining.
Nella finestra di dialogo Seleziona colonna selezionare ServiceGrade nell'elenco nella colonna Origine e quindi fare clic su OK.
Viene aggiunta una nuova colonna all'elenco delle colonne della struttura di mining. Per impostazione predefinita, la nuova colonna di data mining ha lo stesso nome della colonna esistente, con un prefisso numerico, ad esempio ServiceGrade 1. È possibile modificare il nome di questa colonna in modo che sia più descrittivo.
Si specificherà anche il metodo di discretizzazione.
Fare clic con il pulsante destro del mouse su ServiceGrade 1 e scegliere Proprietà.
Nella finestra Proprietà individuare la proprietà Name e modificare il nome in Service Grade Binned .
Viene visualizzata una finestra di dialogo che chiede se si desidera apportare la stessa modifica al nome di tutte le colonne del modello di data mining correlate. Fare clic su No.
Nella finestra Proprietà individuare la sezione Tipo di dati ed espanderla, se necessario.
Modificare il valore della proprietà
Content
daContinuous
aDiscretized
.Sono ora disponibili le proprietà seguenti. Modificare i valori delle proprietà come illustrato nella tabella seguente:
Proprietà Valore predefinito Nuovo valore DiscretizationMethod
Continuous
EqualAreas
DiscretizationBucketCount
Nessun valore 4 Annotazioni
Il valore predefinito di DiscretizationBucketCount è effettivamente 0, il che significa che l'algoritmo determina automaticamente il numero ottimale di bucket. Pertanto, se si desidera reimpostare il valore di questa proprietà sul valore predefinito, digitare 0.
In Progettazione modelli di data mining fare clic sulla scheda Modelli di data mining .
Osserva che quando si aggiunge una copia di una colonna della struttura di data mining, l'indicatore di utilizzo per la copia viene impostato automaticamente su
Ignore
. In genere, quando si aggiunge una copia di una colonna a una struttura di data mining, non si userà la copia per l'analisi insieme alla colonna originale oppure l'algoritmo troverà una correlazione forte tra le due colonne che potrebbero nascondere altre relazioni.
Aggiungere un nuovo modello di data mining alla struttura di data mining
Dopo aver creato un nuovo raggruppamento per l'attributo di destinazione, è necessario aggiungere un nuovo modello di data mining che usa la colonna discretizzata. Al termine, la struttura di data mining CallCenter avrà due modelli di data mining:
Il modello di data mining, Call Center Default NN, gestisce i valori di ServiceGrade come intervallo continuo.
Verrà creato un nuovo modello di data mining, Call Center Binned NN, che usa come risultati di destinazione i valori della colonna ServiceGrade, distribuiti in quattro bucket di dimensioni uguali.
Per aggiungere un modello di data mining basato sulla nuova colonna discretizzata
In Esplora soluzioni fare clic con il pulsante destro del mouse sulla struttura di data mining appena creata e scegliere Apri.
Fare clic sulla scheda Modelli di Mining.
Fare clic su Crea un modello di data mining correlato.
Nella finestra di dialogo Nuovo modello di data mining per Nome modello, digitare
Call Center Binned NN
. Nell'elenco a discesa Nome algoritmo selezionare Microsoft Neural Network.Nell'elenco di colonne contenute nel nuovo modello di data mining individuare ServiceGrade e modificare l'utilizzo da
Predict
aIgnore
.Analogamente, individuare ServiceGrade Binned e modificare l'utilizzo da
Ignore
aPredict
.
Creare un alias per la colonna di destinazione
In genere non è possibile confrontare i modelli di data mining che usano attributi stimabili diversi. Tuttavia, è possibile creare un alias per una colonna del modello di data mining. Ovvero, è possibile rinominare la colonna ServiceGrade Binned, all'interno del modello di data mining in modo che abbia lo stesso nome della colonna originale. È quindi possibile confrontare direttamente questi due modelli in un grafico di accuratezza, anche se i dati vengono discretizzati in modo diverso.
Per aggiungere un alias per una colonna della struttura di data mining in un modello di data mining
Nella scheda Modelli di data mining selezionare ServiceGrade Binned in Struttura.
Si noti che nella finestra Proprietà vengono visualizzate le proprietà dell'oggetto, colonna ScalarMiningStructure.
Nella colonna relativa al modello di data mining ServiceGrade Binned NN fare clic sulla cella corrispondente alla colonna ServiceGrade Binned.
Si noti che ora nella finestra Proprietà vengono visualizzate le proprietà per l'oggetto MiningModelColumn.
Individuare la proprietà Name e modificare il valore in
ServiceGrade
.Individuare la proprietà Description e digitare Alias di colonna temporanea.
La finestra Proprietà deve contenere le informazioni seguenti:
Proprietà Valore Descrizione Alias di colonna temporaneo ID ServiceGrade Binned Flag di modellazione Nome Livello di servizio SourceColumn ID Livello di servizio 1 Utilizzo Predire Fare clic ovunque nella scheda Modello di mining.
La griglia viene aggiornata per visualizzare il nuovo alias temporaneo della colonna,
ServiceGrade
, accanto alla colonna usata. La griglia contenente la struttura di mining e due modelli di mining dovrebbe apparire come segue.Struttura NN predefinito del Call Center Centro Servizi Binned NN Rete neurale Microsoft Rete neurale Microsoft AutomaticResponses Inserimento Inserimento TempoMedioPerProblema Predire Predire Chiamate Inserimento Inserimento GiornoDellaSettimana Inserimento Inserimento FactCallCenterID Chiave Chiave Problemi generati Inserimento Inserimento LevelOneOperators Inserimento Inserimento LevelTwoOperators Inserimento Inserimento Ordini Inserimento Inserimento ServceGrade Binned Ignora Predict (ServiceGrade) ServiceGrade Predire Ignora Spostamento Inserimento Inserimento Operatori totali Inserimento Inserimento Tipo di Retribuzione Inserimento Inserimento
Elaborare tutti i modelli
Infine, per assicurarsi che i modelli creati possano essere confrontati facilmente, si imposta il parametro di inizializzazione sia per i modelli predefiniti che per i modelli binned. L'impostazione di un valore di inizializzazione garantisce che ogni modello inizi a elaborare i dati dallo stesso punto.
Annotazioni
Se non si specifica un valore numerico per il parametro di inizializzazione, SQL Server Analysis Services genererà un valore di inizializzazione in base al nome del modello. Poiché i modelli hanno sempre nomi diversi, è necessario impostare un valore di inizializzazione per assicurarsi che elaborano i dati nello stesso ordine.
Per specificare il seme ed elaborare i modelli
Nella scheda Modello di data mining fare clic con il pulsante destro del mouse sulla colonna per il modello denominato Call Center - LR e scegliere Imposta parametri algoritmo.
Nella riga del parametro HOLDOUT_SEED fare clic sulla cella vuota in Valore e digitare
1
. Fare clic su OK. Ripetere questo passaggio per ogni modello associato alla struttura.Annotazioni
Il valore scelto come valore di inizializzazione non è importante, purché venga usato lo stesso valore di inizializzazione per tutti i modelli correlati.
Nel menu Modelli di data mining selezionare Elabora la struttura di data mining e tutti i modelli. Fare clic su Sì per distribuire il progetto di data mining aggiornato nel server.
Nella finestra di dialogo Modello di Process Mining fare clic su Esegui.
Fare clic su Chiudi per chiudere la finestra di dialogo Stato processo, quindi fare di nuovo clic su Chiudi nella finestra di dialogo Modello di Process Mining.
Dopo aver creato i due modelli di data mining correlati, verranno esaminati i dati per individuare le relazioni nei dati.
Attività successiva nella lezione
Esplorazione del modello di Call Center (esercitazione intermedia sul data mining)
Vedere anche
Strutture di estrazione dati (Analysis Services - Estrazione dati)