Pengantar

Selesai

Di dunia saat ini, data dihasilkan dengan kecepatan dan skala yang luar biasa. Pikirkan aktivitas media sosial, belanja online, transaksi keuangan, atau bahkan sensor di perangkat pintar. Semua informasi ini perlu diproses dan dianalisis untuk mengekstrak wawasan. Sistem tradisional, seperti Hadoop MapReduce, pernah menjadi solusi pilihan utama, tetapi mereka sering mengalami kesulitan dengan kecepatan karena mereka sangat bergantung pada penulisan hasil menengah ke hard disk.

Apache Spark dirancang untuk mengatasi keterbatasan ini. Ini adalah sistem komputasi terdistribusi sumber terbuka yang memproses data dalam jumlah besar di banyak komputer sambil menyimpan sebanyak mungkin dalam memori (RAM). Pilihan desain ini membuat Spark cepat dan dapat diskalakan, mampu menangani apa pun mulai dari himpunan data kecil di laptop Anda hingga petabyte data pada kluster besar.