Individuare nuovi modelli di regressione

Completato

Nell'unità 2 è stato descritto il modo in cui è possibile adattare una linea retta a punti dati. La regressione, tuttavia, può adattarsi a molti tipi di relazioni, incluse quelle con più fattori e quelle in cui l'importanza di un fattore dipende da un altro.

Sperimentare l'uso dei modelli

I modelli di regressione vengono spesso scelti perché funzionano anche con una quantità limitata di dati campione, sono affidabili e facili da interpretare e ne esiste un'ampia varietà.

La regressione lineare è la forma di regressione più semplice, senza alcun limite relativamente al numero di caratteristiche usate. La regressione lineare è disponibile in molte forme, spesso denominate in base al numero di caratteristiche usate e alla forma della curva risultante.

Gli alberi delle decisioni eseguono la stima di una variabile adottando un approccio dettagliato. Tornando all'esempio delle biciclette, è possibile prima suddividere l'albero delle decisioni tra i periodi Primavera-Estate e Autunno-Inverno e quindi eseguire una stima in base al giorno della settimana. Per Primavera/Estate-Lunedì può essere previsto, ad esempio, un noleggio medio di 100 biciclette al giorno, mentre per Autunno/Inverno-Lunedì si passerà a un noleggio medio di 20 biciclette al giorno.

Gli algoritmi di insieme consentono di realizzare molteplici alberi delle decisioni, garantendo stime migliori in presenza di dati più complessi. Gli algoritmi di insieme, come Foresta casuale, sono molto diffusi negli ambienti di data science e apprendimento automatico grazie alle avanzate capacità di stima che sono in grado di offrire.

I data scientist sperimentano spesso l'uso di vari tipi di modelli. Nell'esercizio seguente verranno sperimentati vari tipi di modelli per confrontarne le prestazioni con lo stesso insieme di dati.