Integrasi Git Definisi Pekerjaan Spark
Artikel ini menjelaskan cara kerja integrasi Git untuk Spark Job Definitions (SJD) di Microsoft Fabric. Pelajari cara menyiapkan koneksi repositori, mengelola perubahan definisi kerja Spark melalui kontrol sumber, dan menyebarkannya di berbagai ruang kerja.
Mengaktifkan integrasi Git untuk definisi kerja Spark di Azure DevOps memungkinkan Anda melacak perubahan melalui riwayat git penuh. Jika PySpark atau SparkR dipilih, file definisi utama dan file referensi disertakan sebagai bagian dari penerapan. Perubahan pada kode sumber dalam file-file ini juga dilacak.
Penting
Fitur ini dalam pratinjau.
Menyiapkan sambungan
Dari pengaturan ruang kerja, Anda dapat dengan mudah menyiapkan koneksi ke repositori Anda untuk menerapkan dan menyinkronkan perubahan. Untuk menyiapkan koneksi, lihat Artikel memulai integrasi Git. Setelah tersambung, item Anda, seperti definisi pekerjaan Spark, akan terlihat di panel Kontrol sumber.
Setelah Anda menerapkan definisi pekerjaan Spark ke repositori Git, struktur folder definisi pekerjaan muncul di repositori.
Representasi Definisi Pekerjaan Spark di Git
Gambar berikut adalah contoh struktur file dari setiap item definisi kerja Spark dalam repositori:
Saat Anda menerapkan item definisi kerja Spark ke repositori, folder git dibuat untuk setiap item dan dinamai sesuai dengan skema ini: <Nama item> + "SparkJobDefinition". Jangan ganti nama folder seperti yang digunakan untuk melacak item di ruang kerja. Misalnya, jika nama item adalah "sjd1", nama folder git adalah "sjd1SparkJobDefinition".
Ada dua subfolder dalam folder git. Mereka adalah yang utama dan referensinya. Folder utama berisi file definisi utama dan folder referensi berisi file referensi.
Selain file utama dan referensi, ada juga file SparkJobDefinitionV1.json . Ini menyimpan metadata untuk item definisi kerja Spark, jadi jangan ubah. File .platform berisi informasi platform yang terkait dengan penyiapan> Git seharusnya tidak dimodifikasi juga.
Catatan
- Jika Anda memilih Java atau Scala sebagai bahasa, file utama dan referensi tidak akan diterapkan saat diunggah sebagai file .jar.
- Lingkungan terlampir bertahan dalam definisi kerja Spark setelah disinkronkan dari repositori ke ruang kerja Fabric. Saat ini, lingkungan referensi lintas ruang kerja tidak didukung. Anda harus melampirkan secara manual ke lingkungan baru atau menggunakan pengaturan default ruang kerja untuk menjalankan definisi pekerjaan.
- Definisi kerja Spark mempertahankan ID lakehouse default saat menyinkronkan dari repositori ke ruang kerja Fabric. Jika Anda menerapkan notebook dengan lakehouse default, Anda harus mereferensikan item lakehouse yang baru dibuat secara manual. Untuk informasi selengkapnya, lihat Integrasi Lakehouse Git.