Apa itu definisi pekerjaan Apache Spark?

Definisi kerja Apache Spark adalah item kode Microsoft Fabric yang memungkinkan Anda mengirimkan pekerjaan batch/streaming ke kluster Spark. Dengan mengunggah file biner dari output kompilasi bahasa yang berbeda (misalnya, .jar dari Java), Anda dapat menerapkan logika transformasi yang berbeda ke data yang dihosting di lakehouse. Selain file biner, Anda dapat menyesuaikan perilaku pekerjaan lebih lanjut dengan mengunggah lebih banyak pustaka dan argumen baris perintah.

Untuk menjalankan definisi pekerjaan Spark, Anda harus memiliki setidaknya satu lakehouse yang terkait dengannya. Konteks lakehouse default ini berfungsi sebagai sistem file default untuk runtime bahasa umum Spark. Untuk kode Spark apa pun yang menggunakan jalur relatif untuk membaca/menulis data, data disajikan dari lakehouse default.

Tip

Untuk menjalankan item definisi kerja Spark, Anda harus memiliki file definisi utama dan konteks lakehouse default. Jika Anda tidak memiliki lakehouse, buatlah dengan mengikuti langkah-langkah di Membuat lakehouse.