Bagikan melalui


Apache Spark di Azure Databricks

Apache Spark adalah inti dari Platform Inteligensi Data Azure Databricks dan merupakan teknologi yang mendukung kluster komputasi dan gudang SQL. Azure Databricks adalah platform yang dioptimalkan untuk Apache Spark yang menyediakan platform yang efisien dan sederhana untuk menjalankan beban kerja Apache Spark.

Apa hubungan Apache Spark dengan Azure Databricks?

Perusahaan Databricks didirikan oleh pembuat asli Apache Spark. Sebagai proyek perangkat lunak sumber terbuka, Apache Spark memiliki komitter dari banyak perusahaan top, termasuk Databricks.

Databricks terus mengembangkan dan merilis fitur ke Apache Spark. Databricks Runtime, yang mendukung Azure Databricks, mencakup pengoptimalan tambahan dan fitur kepemilikan yang membangun dan memperluas Apache Spark, termasuk Photon, lapisan eksekusi yang dioptimalkan yang dapat digunakan bersama dengan Spark. Databricks Photon dirancang untuk bekerja dengan dan meningkatkan performa beban kerja Apache Spark. Photon meningkatkan performa Spark dengan mem-vektorisasi kueri dan operasi lainnya, memungkinkan eksekusi operasi SQL dan DataFrame API yang lebih cepat.

Bagaimana Databricks dioptimalkan untuk Apache Spark?

Di Apache Spark, semua operasi didefinisikan sebagai transformasi atau tindakan.

  • Transformasi: tambahkan beberapa logika pemrosesan ke rencana. Contohnya termasuk membaca data, gabungan, agregasi, dan pemaksaan tipe.
  • Tindakan: memicu logika pemrosesan untuk mengevaluasi dan menghasilkan hasil. Contohnya termasuk menulis, menampilkan atau mempratinjau hasil, caching manual, atau menghitung jumlah baris.

Apache Spark menggunakan model penundaan eksekusi, yang berarti bahwa semua logika yang didefinisikan oleh kumpulan operasi tidak dievaluasi hingga ada tindakan yang dipicu. Untuk menghindari evaluasi logika yang tidak perlu, hanya gunakan tindakan untuk menyimpan hasil kembali ke tabel target.

Karena tindakan mewakili hambatan pemrosesan untuk mengoptimalkan logika, Azure Databricks telah menambahkan banyak pengoptimalan di atas yang sudah ada di Apache Spark untuk memastikan eksekusi logika yang optimal. Pengoptimalan ini mempertimbangkan semua transformasi yang dipicu oleh tindakan tertentu sekaligus dan menemukan rencana optimal berdasarkan tata letak fisik data. Penembolokan data secara manual atau mengembalikan hasil pratinjau dalam alur produksi dapat mengganggu pengoptimalan ini dan menyebabkan peningkatan biaya dan latensi.

Bagaimana cara kerja Apache Spark di Azure Databricks?

Saat Anda menyebarkan kluster komputasi atau gudang SQL di Azure Databricks, Apache Spark dikonfigurasi dan disebarkan ke komputer virtual. Anda tidak perlu mengonfigurasi atau menginisialisasi konteks Spark atau sesi Spark, karena ini dikelola untuk Anda oleh Azure Databricks.

Dapatkah saya menggunakan Azure Databricks tanpa menggunakan Apache Spark?

Ya. Azure Databricks mendukung berbagai beban kerja dan menyertakan pustaka sumber terbuka di Databricks Runtime. Databricks SQL menggunakan Photon di bawah tenda, tetapi pengguna akhir dapat menggunakan sintaks Spark SQL untuk membuat dan mengkueri objek database dengan Photon.

Databricks Runtime for Machine Learning dioptimalkan untuk beban kerja ML, dan banyak ilmuwan data menggunakan pustaka sumber terbuka utama seperti TensorFlow dan SciKit Learn saat bekerja di Azure Databricks. Anda dapat menggunakan pekerjaan untuk menjadwalkan beban kerja arbitrer terhadap sumber daya komputasi yang disebarkan dan dikelola oleh Azure Databricks.

Mengapa menggunakan Apache Spark di Azure Databricks?

Platform Databricks menyediakan lingkungan kolaboratif yang aman untuk mengembangkan dan menyebarkan solusi perusahaan yang menskalakan dengan bisnis Anda. Karyawan Databricks mencakup banyak pengurus dan pengguna Apache Spark yang paling berpengetahuan di dunia. Perusahaan terus mengembangkan dan merilis pengoptimalan baru untuk memastikan pengguna dapat mengakses lingkungan tercepat untuk menjalankan Apache Spark.

Bagaimana cara mempelajari selengkapnya tentang menggunakan Apache Spark di Azure Databricks?

Untuk mulai menggunakan Apache Spark di Azure Databricks, langsung mulai! Tutorial Apache Spark DataFrames berjalan melalui pemuatan dan transformasi data di Python, R, atau Scala. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames. Untuk panduan dan tautan lainnya ke informasi tambahan, lihat Apache Spark di Azure Databricks.

Untuk informasi tambahan tentang dukungan bahasa Python, R, dan Scala di Spark, lihat PySpark di Azure Databricks, sparklyr, dan Azure Databricks untuk pengembang Scala, serta di Referensi untuk API Apache Spark.