Esaminare diversi tipi di dati

Completato

Il termine dati indica semplicemente le informazioni raccolte. I volumi e le masse di informazioni disponibili sono enormi e comprendono molti tipi di informazioni diverse.

È possibile classificare i dati in molti modi. Per operare nello spazio di Machine Learning, è necessario comprendere sia il tipo che i sistemi di archiviazione digitale dei dati a nostra disposizione.

Dati continui, ordinali e di categorici

Per le operazioni sui dati, a volte è necessario sapere ciò che esattamente rappresentano i dati. Questa consapevolezza può aiutarci a scegliere il giusto modello di Machine Learning. Può anche contribuire a organizzare i dati in modi specifici e utili.

I dati continui fanno riferimento a informazioni numeriche che possono aumentare o diminuire in qualsiasi misura. Ad esempio, è possibile sommare 1 millimetro a 1 metro e calcolare una somma di 1,001 metri.

I dati categorici fanno riferimento a dati che non rientrano in uno spettro continuo. In questo scenario, i dati classificano le persone del Titanic come "equipaggio" o "passeggeri". I dati categorici non possono essere archiviati come numeri in modo chiaro e evidente.

I dati ordinali fanno riferimento a dati di categoria con un ordine definito e possono quindi essere archiviati come valori numerici. Ad esempio, è possibile definire valori di grande, medio, e piccolo come dati ordinali perché è possibile classificarli numericamente: grande > medio > piccolo. Al contrario, i valori mela, arancio e cocco sono categorici perché non possono essere classificati. I dati ordinali possono anche fare riferimento a numeri che possono aumentati o diminuiti, ma solo in quantità prestabilite. Ad esempio, il numero di persone che salgono a bordo di una nave sarà sicuramente un numero intero: nessuno può imbarcarsi a metà.

Gli ID fanno riferimento a un tipo speciale di dati di categoria in cui ogni campione possiede un ID univoco. Ad esempio, in questo set di dati, ogni persona del Titanic ha un determinato valore ID, anche se ha lo stesso nome di un'altra persona. I valori di identità consentono di spostarsi in un set di dati, ma l’analisi dei dati non coinvolgerà direttamente tali valori.

Tipi di dati

Un computer deve archiviare ed elaborare tutti i dati usati per Machine Learning. Sebbene possiamo scrivere quasi tutti i dati su un foglio di carta con una matita, i computer archiviano le informazioni sotto forma di serie di 0 e 1. In questo modo vengono poste delle limitazioni alla modalità di uso delle informazioni.

Il Tipo di dati indica il tipo dei dati che sono archiviati in un computer. I tipi di dati in genere hanno queste categorie:

  • Numeri interi: numeri di conteggio: ad esempio, 2
  • numeri a virgola mobile: numeri con cifre decimali: ad esempio, 2.43
  • stringhe: lettere e parole
  • valori booleani: true e false
  • Nessuno, nullo o null: non rappresentano dati, ma piuttosto assenza di dati

I termini esatti e l'implementazione di questi concetti variano da lingua a lingua, ma operano tutti in modo simile in tutti i linguaggi di programmazione.

A volte, due tipi di dati diversi offrono funzionalità equivalenti. Ad esempio, i computer possono gestire i valori true/false come booleani (true o false), stringhe ('y', o 'n'), numeri interi (0 o 1) o anche numeri a virgola mobile (0,0 o 1,0).

Tipi di dati derivati

Con l'uso della tecnologia, si riscontrano molti altri tipi di dati "primitivi" di base, oltre all'elenco precedente. I computer possono archiviare date, immagini, modelli 3D e così via. Ci si riferisce a questi tipi di dati come tipi di dati derivati. Si inizia da uno o più tipi di dati primitivi per costruire un tipo di dato derivato.

Spesso, in Machine Learning, è utile convertire i tipi derivati in rappresentazioni più semplici. Ad esempio, è possibile archiviare un valore di data definito, ad esempio 1° gennaio 2017, come numero intero o a virgola mobile: 20170101. I numeri interi o a virgola mobile semplificano i calcoli alla base dei nostri modelli.

Troppe scelte?

Conoscere il tipo di dati disponibili consente di scegliere il tipo di dati corretto.

Il tipo di dati corretto può dipendere dal pacchetto usato per eseguire i modelli, anche se in genere i pacchetti sono piuttosto permissivi. In generale:

  • Per lavorare con i dati continui, i numeri a virgola mobile sono la scelta migliore.
  • I dati ordinali sono tipicamente codificati con valori interi.
  • I dati di categoria che coinvolgono solo due categorie in genere possono essere codificati come dati booleani o numeri interi. L'uso di tre o più categorie può risultare un po’ più complicato. Nessun problema: la prossima lezione tratterà questo argomento!

Nel prossimo esercizio, verrà illustrata la visualizzazione dei dati, per comprendere meglio i dati stessi. Nel farlo, annotare attentamente i tipi di dati coinvolti e provare di identificare i tipi di dati continui, ordinali o di categoria.