Metodi di discretizzazione (data mining)

Alcuni algoritmi usati per creare modelli di data mining in SQL Server Analysis Services richiedono tipi di contenuto specifici per funzionare correttamente. Ad esempio, l'algoritmo Microsoft Naive Bayes non può usare colonne continue come input e non può prevedere valori continui. Inoltre, alcune colonne possono contenere così tanti valori che l'algoritmo non può identificare facilmente modelli interessanti nei dati da cui creare un modello.

In questi casi, è possibile discretizzare i dati nelle colonne per consentire l'uso degli algoritmi per produrre un modello di data mining. La discretizzazione è il processo di inserimento di valori in bucket in modo che esista un numero limitato di stati possibili. I contenitori stessi vengono trattati come valori ordinati e discreti. È possibile discretizzare sia le colonne numeriche che le colonne stringa.

Esistono diversi metodi che è possibile usare per discretizzare i dati. Se la soluzione di data mining usa dati relazionali, è possibile controllare il numero di bucket da usare per il raggruppamento dei dati impostando il valore della DiscretizationBucketCount proprietà . Il numero predefinito di bucket è 5.

Se la soluzione di data mining usa i dati di un cubo OLAP (Online Analytical Processing), l'algoritmo di data mining calcola automaticamente il numero di bucket da generare usando l'equazione seguente, dove n è il numero di valori distinti di dati nella colonna:

Number of Buckets = sqrt(n)

Se non si desidera che Analysis Services calcoli il numero di bucket, è possibile utilizzare la DiscretizationBucketCount proprietà per specificare manualmente il numero di bucket.

Nella tabella seguente vengono descritti i metodi che è possibile utilizzare per discretizzare i dati in Analysis Services.

Metodo di discretizzazione	Descrizione
`AUTOMATIC`	Analysis Services determina il metodo di discretizzazione da utilizzare.
`CLUSTERS`	L'algoritmo divide i dati in gruppi eseguendo il campionamento dei dati di training, l'inizializzazione in diversi punti casuali e quindi l'esecuzione di diverse iterazioni dell'algoritmo Microsoft Clustering usando il metodo di clustering Expectation Maximization (EM). Il `CLUSTERS` metodo è utile perché funziona su qualsiasi curva di distribuzione. Tuttavia, richiede più tempo di elaborazione rispetto agli altri metodi di discretizzazione. Questo metodo può essere utilizzato solo con colonne numeriche.
`EQUAL_AREAS`	L'algoritmo divide i dati in gruppi che contengono un numero uguale di valori. Questo metodo è ideale per le curve di distribuzione normali, ma non funziona correttamente se la distribuzione include un numero elevato di valori che si verificano in un gruppo ristretto nei dati continui. Ad esempio, se una metà degli elementi ha un costo pari a 0, metà dei dati si verificherà in un singolo punto della curva. In una distribuzione di questo tipo, questo metodo suddivide i dati nel tentativo di stabilire una discretizzazione uguale in più aree. Ciò produce una rappresentazione imprecisa dei dati.

Osservazioni:

È possibile usare il EQUAL_AREAS metodo per discretizzare le stringhe.
Il CLUSTERS metodo usa un campione casuale di 1000 record per discretizzare i dati. Utilizzare il EQUAL_AREAS metodo se non si desidera che l'algoritmo campioni i dati.
L'esercitazione sul modello di data mining di rete neurale fornisce un esempio di come personalizzare la discretizzazione. Per altre informazioni, vedere Lezione 5: Creazione di modelli di rete neurale e regressione logistica (esercitazione intermedia sul data mining).

Vedere anche

Tipi di contenuto (data mining)
Tipi di contenuto (DMX)
Algoritmi di data mining (Analysis Services - Data mining)
Strutture di estrazione dati (Analysis Services - Estrazione dati)
Tipi di dati (data mining)
Colonne della struttura di mining
Distribuzioni di colonne (Data Mining)

Last updated on 2017-03-06

Condividi tramite

Metodi di discretizzazione (data mining)

Osservazioni:

Vedere anche

Risorse aggiuntive