Condividi tramite


Tipi di contenuto (Data mining)

In MicrosoftSQL ServerAnalysis Services è possibile definire sia il tipo di dati fisico per una colonna in una struttura di data mining che un tipo di contenuto logico per la colonna quando viene utilizzata in un modello.

Il tipo di dati determina il modo in cui gli algoritmi elaborano i dati in tali colonne quando si creano modelli di data mining. La definizione del tipo di dati di una colonna indica all'algoritmo le informazioni sul tipo di dati delle colonne e le modalità di elaborazione dei dati. Ogni tipo di dati in Analysis Services supporta uno o più tipi di contenuto per il data mining.

Il tipo di contenuto descrive il comportamento del contenuto della colonna. Se ad esempio il contenuto di una colonna si ripete in un intervallo specifico, ad esempio nell'arco dei giorni della settimana, è possibile contrassegnare il tipo di contenuto di tale colonna come ciclico.

Per il corretto funzionamento di alcuni algoritmi, sono necessari tipi di dati e tipi di contenuto specifici. L'algoritmo Microsoft Naive Bayes, ad esempio, non può utilizzare colonne continue come input, né stimare valori continui. Alcuni tipi di contenuto, ad esempio Key Sequence, sono utilizzati solo da un algoritmo specifico. Per un elenco degli algoritmi e dei tipi di contenuto supportati, vedere Algoritmi di data mining (Analysis Services - Data mining).

Nell'elenco seguente vengono descritti i tipi di contenuto utilizzati nel data mining e vengono identificati i tipi di dati che supportano ogni tipo di contenuto.

Discrete

Il tipo di contenuto discrete indica che la colonna contiene un numero finito di valori senza continuità. Ad esempio, una colonna relativa al sesso è una tipica colonna attributo discreta, in quanto i dati rappresentano un numero specifico di categorie.

I valori di una colonna attributo discreta non possono implicare l'ordinamento, neanche se sono numerici. Inoltre, anche se i valori utilizzati per la colonna discreta sono numerici, non è possibile calcolare i valori frazionari. Gli indicativi di località telefonici sono un valido esempio di dati numerici discreti.

Il tipo di contenuto Discrete è supportato da tutti i tipi di dati di data mining.

Continuous

Il tipo di contenuto continuous indica che la colonna contiene valori che rappresentano dati numerici su una scala che consente valori provvisori. A differenza di una colonna discreta, che rappresenta dati conteggiabili finiti, una colonna continua rappresenta misurazioni scalabili che possono contenere un numero infinito di valori frazionari. Una colonna di temperature è un esempio di colonna attributo continua.

Quando una colonna contiene dati numerici continui e quando è noto il modo in cui i dati devono essere distribuiti, è possibile migliorare potenzialmente l'accuratezza dell'analisi specificando la distribuzione prevista dei valori. Poiché la distribuzione della colonna viene specificata a livello della struttura di data mining, l'impostazione si applica a tutti i modelli basati sulla struttura. Per ulteriori informazioni, vedere Distribuzioni delle colonne (Data mining).

Il tipo di contenuto Continuous è supportato dai tipi di dati Date, Double e Long.

Discretized

Per discretizzazione si intende il processo di raggruppamento in bucket di un set continuo di dati in modo da consentire un numero limitato di valori possibili. È possibile discretizzare solo dati numerici.

Di conseguenza, il tipo di contenuto discretized indica che la colonna contiene valori che rappresentano gruppi o bucket di valori derivati da una colonna continua. I bucket vengono considerati valori ordinati e discreti.

È possibile discretizzare i dati manualmente per ottenere i bucket desiderati oppure utilizzare i metodi di discretizzazione disponibili in SQL Server Analysis Services. Alcuni algoritmi eseguono automaticamente la discretizzazione. Per ulteriori informazioni, vedere Procedura: Modifica della discretizzazione di una colonna in un modello di data mining.

Il tipo di contenuto Discretized è supportato dai tipi di dati Date, Double, Long e Text.

Key

Il tipo di contenuto key indica che la colonna identifica in modo univoco una riga. In una tabella del case la colonna chiave è in genere un identificatore numerico o di testo. Impostare il tipo di contenuto su key per indicare che la colonna non deve essere utilizzata per l'analisi, ma solo per la registrazione di record.

Anche le tabelle nidificate contengono chiavi, ma in questo caso l'utilizzo è leggermente diverso. Impostare il tipo di contenuto su key in una tabella nidificata se la colonna corrisponde all'attributo che si desidera analizzare. I valori nella chiave della tabella nidificata devono essere univoci per ogni case, ma possono esistere duplicati nell'intero set di case.

Se ad esempio si analizzano i prodotti acquistati dai clienti, è possibile impostare il tipo di contenuto chiave (key) per la colonna CustomerID nella tabella del case e di nuovo il tipo di contenuto chiave (key) per la colonna PurchasedProducts nella tabella nidificata.

[!NOTA]

Le tabelle nidificate sono disponibili solo se si utilizzano dati di un'origine dati esterna definiti come vista origine dati di Analysis Services.

Questo tipo di contenuto è supportato dai tipi di dati Date, Double, Long e Text.

Key Sequence

Il tipo di contenuto key sequence può essere utilizzato solo nei modelli Sequence Clustering. Quando si imposta tipo di contenuto su key sequence, la colonna contiene valori che rappresentano una sequenza di eventi. I valori sono ordinati, ma non devono essere equidistanti.

Questo tipo di contenuto è supportato dai tipi di dati Double, Long, Text e Date.

Key Time

Il tipo di contenuto key time può essere utilizzato solo nei modelli Time Series. Quando si imposta tipo di contenuto su key time, i valori vengono ordinati e rappresentano una scala cronologica.

Questo tipo di contenuto è supportato dai tipi di dati Double, Long e Date.

Table

Il tipo di contenuto table indica che la colonna contiene un'altra tabella di dati con una o più colonne e una o più righe. Questa colonna può contenere più valori per ogni determinata riga della tabella del case, tutti correlati al record del case padre. Se ad esempio la tabella del case principale contiene un elenco di clienti, è possibile disporre di molte colonne che contengono tabelle nidificate, ad esempio una colonna ProductsPurchased, in cui la tabella nidificata contiene un elenco dei prodotti acquistati da un determinato cliente nel passato e una colonna Hobby in cui sono elencati gli interessi del cliente.

Il tipo di dati di questa colonna è sempre Table.

Cyclical

Il tipo di contenuto cyclical stabilisce che la colonna contiene valori che rappresentano un set ordinato ciclico. Ad esempio, i giorni della settimana numerati costituiscono un set ordinato ciclico, in quanto il giorno numero uno segue il giorno numero sette.

Le colonne cicliche vengono considerate sia ordinate che discrete in relazione al tipo di contenuto.

In Analysis Services, questo tipo di contenuto è supportato da tutti i tipi di dati del processo di data mining. Tuttavia, la maggior parte degli algoritmi trattano i valori ciclici come valori discreti e non eseguono un'elaborazione speciale.

Ordered

Il tipo di contenuto ordered indica inoltre che la colonna contiene valori che definiscono una sequenza o un ordine. In questo tipo di contenuto, tuttavia, i valori utilizzati per l'ordinamento non implicano alcuna relazione di distanza o grandezza tra i valori del set. Se ad esempio una colonna attributo ordinata contiene informazioni sui livelli di competenza elencati in ordine di rango da uno a cinque, la distanza tra i livelli di competenza non include alcuna informazione implicita, ovvero un livello di competenza pari a cinque non è necessariamente superiore a un livello di competenza pari a uno.

Le colonne attributo ordinate vengono considerate discrete in relazione al tipo di contenuto.

In Analysis Services questo tipo di contenuto è supportato da tutti i tipi di dati del processo di data mining. Tuttavia, la maggior parte degli algoritmi trattano i valori ordinati come valori discreti e non eseguono un'elaborazione speciale.

Classified

Oltre ai tipi di contenuto precedenti che sono di uso comune con tutti i modelli, per alcuni tipi di dati è possibile utilizzare le colonne classificate per definire i tipi di contenuto. Per ulteriori informazioni sulle colonne classificate, vedere Colonne classificate (Data mining).