Introduzione

Completato

Il fatto che i dati modellino l’apprendimento automatico conferisce a quest’ultimo il suo potere predittivo. Per creare modelli efficaci, è necessario comprendere i dati che si usano.

In questo articolo viene illustrato come gli esseri umani e i computer categorizzano, archiviano e interpretano i dati. Viene esaminato ciò che rende un set di dati valido e come risolvere i problemi relativi ai dati disponibili. Si procederà anche con l'esplorazione di nuovi dati e si mostrerà come esaminare un set di dati in modo più approfondito per creare modelli predittivi migliori.

Scenario: l'ultima traversata del Titanic

L'utente è un archeologo marino appassionato, con un particolare interesse nei disastri marittimi. La sera tardi, mentre si scorrono immagini di ossa di balena e antiche pergamene di Atlantide, è possibile trovare un set di dati pubblici che elenca i passeggeri conosciuti e l'equipaggio del primo, nonché ultimo, viaggio del Titanic. Attratti dall'equilibrio tra destino e caso, ci si chiede quali fattori abbiano determinato la sopravvivenza di un passeggero del Titanic? I dati relativi a questo periodo sono alquanto incompleti: non si hanno a disposizione molte informazioni su alcuni passeggeri. Prima di poter analizzare completamente i dati, è necessario trovare il modo di ricomporli.

Prerequisiti

  • Una certa familiarità con i concetti di apprendimento automatico, ad esempio i modelli e i costi, è utile, ma non essenziale

Obiettivi di apprendimento

Contenuto del modulo:

  • Visualizzare set di dati di grandi dimensioni con l'analisi esplorativa dei dati
  • Eliminare gli errori da un set di dati
  • Prevedere valori sconosciuti usando dati numerici e categorici