Introduzione

Completato

Nel mondo attuale, i dati vengono generati a velocità e scalabilità incredibili. Pensa all'attività dei social media, allo shopping online, alle transazioni finanziarie o anche ai sensori negli smart device. Tutte queste informazioni devono essere elaborate e analizzate per estrarre informazioni dettagliate. I sistemi tradizionali, come Hadoop MapReduce, erano una volta le soluzioni go-to, ma spesso hanno lottato con la velocità perché si basavano molto sulla scrittura di risultati intermedi su disco.

Apache Spark è stato progettato per superare questa limitazione. Si tratta di un sistema di elaborazione distribuito open source che elabora grandi quantità di dati in molti computer mantenendo il più possibile in memoria (RAM). Questa scelta di progettazione rende Spark veloce e scalabile, in grado di gestire qualsiasi elemento da set di dati di piccole dimensioni nel portatile a petabyte di dati in cluster di grandi dimensioni.