Úvod
V dnešním světě se data generují neuvěřitelným tempem a škálováním. Zamyslete se nad aktivitou sociálních médií, online nakupováním, finančními transakcemi nebo dokonce senzory v inteligentních zařízeních. Všechny tyto informace je potřeba zpracovat a analyzovat, aby bylo možné extrahovat přehledy. Tradiční systémy, jako Hadoop MapReduce, byly jednou preferovaná řešení, ale často měly problémy s rychlostí, protože se silně spoléhaly na zápis průběžných výsledků na disk.
Apache Spark byl navržen tak, aby toto omezení vyřešil. Jedná se o opensourcový distribuovaný výpočetní systém, který zpracovává velké objemy dat na mnoha počítačích a přitom udržuje co nejvíce paměti (RAM). Díky tomuto návrhu je Spark rychlý i škálovatelný a dokáže zpracovat cokoli od malých datových sad na přenosném počítači až po petabajty dat v obrovských clusterech.