Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Una struttura di estrazione è progettata per supportare più modelli di analisi dei dati. Pertanto, dopo aver completato la procedura guidata, è possibile aprire la struttura e aggiungere nuovi modelli di data mining. Ogni volta che si crea un modello, è possibile usare un algoritmo diverso, modificare i parametri o applicare filtri per usare un subset diverso dei dati.
Aggiunta di nuovi modelli di estrazione dati
Quando si utilizza la Creazione guidata per il data mining per creare un nuovo modello di mining, di norma è necessario innanzitutto creare una struttura di data mining. La procedura guidata consente quindi di aggiungere un modello di data mining iniziale alla struttura. Tuttavia, non è necessario creare immediatamente un modello. Se si crea solo la struttura, non è necessario prendere una decisione sulla colonna da usare come attributo stimabile o su come usare i dati in un determinato modello. Basta impostare la struttura dei dati generale che si desidera utilizzare in futuro e più tardi è possibile usare Data Mining Designer per aggiungere nuovi modelli di data mining basati sulla struttura.
Annotazioni
In DMX, l'istruzione CREATE MINING MODEL inizia con il mining model. Ciò significa che si definisce la scelta del modello di data mining e Analysis Services genera automaticamente la struttura sottostante. Successivamente è possibile continuare ad aggiungere nuovi modelli di data mining a tale struttura, usando l'istruzione ALTER STRUCTURE... ADD MODEL.
Scelta di un algoritmo
Quando si aggiunge un nuovo modello a una struttura esistente, la prima operazione da eseguire consiste nel selezionare un algoritmo di data mining da usare in tale modello. La scelta dell'algoritmo è importante perché ogni algoritmo esegue un tipo diverso di analisi e ha requisiti diversi.
Quando si seleziona un algoritmo non compatibile con i dati, verrà visualizzato un avviso. In alcuni casi, potrebbe essere necessario ignorare le colonne che non possono essere elaborate dall'algoritmo. In altri casi, l'algoritmo eseguirà automaticamente le modifiche. Ad esempio, se la struttura contiene dati numerici e l'algoritmo può funzionare solo con valori discreti, raggruppa i valori numerici in intervalli discreti. In alcuni casi, potrebbe essere necessario correggere manualmente i dati scegliendo una chiave o scegliendo un attributo stimabile.
Non è necessario modificare l'algoritmo quando si crea un nuovo modello. Spesso è possibile ottenere risultati molto diversi usando lo stesso algoritmo, ma filtrando i dati o modificando un parametro, ad esempio il metodo di clustering o le dimensioni minime del set di elementi. È consigliabile sperimentare più modelli per vedere quali parametri producono i risultati migliori.
Si noti che tutti i nuovi modelli devono essere elaborati prima di poterli usare.
Specificare l'uso delle colonne in un nuovo modello di data mining
Quando si aggiungono nuovi modelli di data mining a una struttura di data mining esistente, è necessario specificare il modo in cui ogni colonna di dati deve essere utilizzata dal modello. A seconda del tipo di algoritmo scelto per il modello, alcune di queste scelte possono essere effettuate per impostazione predefinita. Se non si specifica un tipo di utilizzo per una colonna, la colonna non verrà inclusa nella struttura di data mining. Tuttavia, i dati nella colonna possono comunque essere disponibili per il drill-through, se il modello lo supporta.
Le colonne della struttura di data mining utilizzate dal modello (se non impostata su Ignora) devono essere una chiave, una colonna di input, una colonna stimabile o una colonna stimabile i cui valori vengono usati anche come input per il modello.
Le colonne chiave contengono un identificatore univoco per ogni riga di una tabella. Alcuni modelli di data mining, ad esempio quelli basati sugli algoritmi sequence clustering o time series, possono contenere più colonne chiave. Tuttavia, queste chiavi multiple non sono chiavi composte nel senso relazionale, ma devono essere selezionate in modo da fornire supporto per l'analisi della serie temporale e del clustering di sequenze.
Le colonne di input forniscono le informazioni da cui vengono effettuate stime. La Creazione guidata di data mining fornisce la funzionalità Suggerisci, abilitata quando si seleziona una colonna prevedibile. Se si fa clic su questo pulsante, la procedura guidata campionerà i valori stimabili e determinerà quali delle altre colonne della struttura rendono valide le variabili. Rifiuta le colonne chiave o altre colonne con molti valori univoci e suggerisce colonne che sembrano essere correlate al risultato.
Questa funzionalità è particolarmente utile quando i set di dati contengono più colonne di quanto sia effettivamente necessario creare un modello di data mining. La funzionalità Suggerisci calcola un punteggio numerico, da 0 a 1, che descrive la relazione tra ogni colonna del set di dati e la colonna stimabile. In base a questo punteggio, la funzionalità suggerisce colonne da usare come input per il modello di data mining. Se si usa la funzionalità Suggerisci , è possibile usare le colonne suggerite, modificare le selezioni in base alle proprie esigenze o ignorare i suggerimenti.
Le colonne prevedibili contengono le informazioni che si tenta di prevedere nel modello di data mining. È possibile selezionare più colonne come attributi stimabili. I modelli di clustering sono l'eccezione in quanto un attributo stimabile è facoltativo.
A seconda del tipo di modello, potrebbe essere necessario che la colonna stimabile sia un tipo di dati specifico: ad esempio, un modello di regressione lineare richiede una colonna numerica come valore stimato; L'algoritmo Naïve Bayes richiede un valore discreto e anche tutti gli input devono essere discreti.
Specificare il contenuto della colonna
Per alcune colonne, potrebbe essere necessario specificare anche il contenuto della colonna. Nel data mining di SQL Server la proprietà Content Type di ogni colonna di dati indica all'algoritmo come deve elaborare i dati in tale colonna. Ad esempio, se i dati hanno una colonna Income, è necessario specificare che la colonna contiene numeri continui impostando il tipo di contenuto su Continuo. Tuttavia, è anche possibile specificare che i numeri nella colonna Income vengano raggruppati in bucket impostando il tipo di contenuto su Discretized e, facoltativamente, specificando il numero esatto di bucket. È possibile creare modelli diversi che gestiscono colonne in modo diverso: ad esempio, è possibile provare un modello che raggruppa i clienti in tre gruppi di età e un altro modello che raggruppa i clienti in gruppi di età pari a 10 anni.
Vedere anche
Strutture di estrazione dati (Analysis Services - Estrazione dati)
Creare una struttura di data mining relazionale
Proprietà del modello mining
Colonne del modello di mining