Introduktion

Slutförd

I dagens värld genereras data i en otrolig hastighet och skala. Tänk på aktivitet på sociala medier, online-shopping, finansiella transaktioner eller till och med sensorer i smarta enheter. All den här informationen måste bearbetas och analyseras för att extrahera insikter. Traditionella system, som Hadoop MapReduce, var en gång go-to lösningar, men de kämpade ofta med hastighet eftersom de förlitade sig mycket på att skriva mellanliggande resultat till disk.

Apache Spark har utformats för att övervinna den här begränsningen. Det är ett distribuerat databehandlingssystem med öppen källkod som bearbetar stora mängder data på många datorer samtidigt som man behåller så mycket som möjligt i minnet (RAM). Det här designvalet gör Spark både snabbt och skalbart, vilket kan hantera allt från små datauppsättningar på din bärbara dator till petabyte med data i massiva kluster.