Bagikan melalui


Membuat dan mengelola definisi kerja Apache Spark di Visual Studio Code

Ekstensi Visual Studio (VS) Code untuk Synapse sepenuhnya mendukung operasi definisi kerja Spark CURD (buat, perbarui, baca, dan hapus) di Fabric. Setelah membuat definisi kerja Spark, Anda dapat mengunggah lebih banyak pustaka yang direferensikan, mengirimkan permintaan untuk menjalankan definisi kerja Spark, dan memeriksa riwayat eksekusi.

Membuat definisi kerja Spark

Untuk membuat definisi kerja Spark baru:

  1. Di Penjelajah Visual Studio Code, pilih opsi Buat Definisi Pekerjaan Spark.

    Cuplikan layar Vs Code Explorer, memperlihatkan tempat untuk memilih opsi Buat Definisi Pekerjaan Spark.

  2. Masukkan bidang awal yang diperlukan: nama, lakehouse yang dirujuk, dan lakehouse default.

  3. Proses permintaan dan nama definisi pekerjaan Spark yang baru dibuat muncul di bawah simpul akar Definisi Pekerjaan Spark di VS Code Explorer. Di bawah simpul nama definisi kerja Spark, Anda akan melihat tiga subnode:

    • File: Daftar file definisi utama dan pustaka referensi lainnya. Anda dapat mengunggah file baru dari daftar ini.
    • Lakehouse: Daftar semua lakehouse yang dirujuk oleh definisi kerja Spark ini. Lakehouse default ditandai dalam daftar, dan Anda dapat mengaksesnya melalui jalur Files/…, Tables/…relatif .
    • Jalankan: Daftar riwayat eksekusi definisi kerja Spark ini dan status pekerjaan setiap eksekusi.

Mengunggah file definisi utama ke pustaka yang dirujuk

Untuk mengunggah atau menimpa file definisi utama, pilih opsi Tambahkan File Utama.

Cuplikan layar VS Code Explorer, memperlihatkan tempat untuk memilih opsi Tambahkan File Utama.

Untuk mengunggah file pustaka yang dirujuk file definisi utama, pilih opsi Tambahkan File Lib.

Cuplikan layar memperlihatkan tombol unggah lib.

Setelah mengunggah file, Anda dapat mengambil alihnya dengan mengklik opsi Perbarui File dan mengunggah file baru, atau Anda dapat menghapus file melalui opsi Hapus .

Cuplikan layar VS Code Explorer, memperlihatkan tempat menemukan opsi Perbarui File dan Hapus.

Mengirimkan permintaan eksekusi

Untuk mengirimkan permintaan untuk menjalankan definisi pekerjaan Spark dari Visual Studio Code:

  1. Dari opsi di sebelah kanan nama definisi pekerjaan Spark yang ingin Anda jalankan, pilih opsi Jalankan Pekerjaan Spark.

    Cuplikan layar VS Code Explorer, memperlihatkan tempat untuk memilih Jalankan Pekerjaan Spark.

  2. Setelah Anda mengirimkan permintaan, aplikasi Apache Spark baru muncul di simpul Jalankan di daftar Explorer. Anda dapat membatalkan pekerjaan yang sedang berjalan dengan memilih opsi Batalkan Pekerjaan Spark.

    Cuplikan layar VS Code Explorer dengan aplikasi Spark baru yang tercantum di bawah simpul Jalankan, dan memperlihatkan tempat menemukan opsi Batalkan Pekerjaan Spark.

Buka definisi kerja Spark di portal Fabric

Anda dapat membuka halaman penulisan definisi kerja Spark di portal Fabric dengan memilih opsi Buka di Browser .

Anda juga dapat memilih Buka di Browser di samping eksekusi yang telah selesai untuk melihat halaman pemantauan detail dari eksekusi tersebut.

Cuplikan layar VS Code Explorer, memperlihatkan tempat untuk memilih opsi Buka di Browser.

Debug kode sumber definisi kerja Spark (Python)

Jika definisi kerja Spark dibuat dengan PySpark (Python), Anda dapat mengunduh skrip .py file definisi utama dan file yang direferensikan, dan men-debug skrip sumber di Visual Studio Code.

  1. Untuk mengunduh kode sumber, pilih opsi Definisi Pekerjaan Debug Spark di sebelah kanan definisi kerja Spark.

    Cuplikan layar memperlihatkan tombol unduh sumber.

  2. Setelah pengunduhan selesai, folder kode sumber secara otomatis terbuka.

  3. Pilih opsi Percayai penulis saat diminta. (Opsi ini hanya muncul saat pertama kali Anda membuka folder. Jika Anda tidak memilih opsi ini, Anda tidak dapat men-debug atau menjalankan skrip sumber. Untuk informasi selengkapnya, lihat Keamanan Kepercayaan Ruang Kerja Visual Studio Code.)

  4. Jika Anda telah mengunduh kode sumber sebelumnya, Anda diminta untuk mengonfirmasi bahwa Anda ingin menimpa versi lokal dengan unduhan baru.

    Catatan

    Di folder akar skrip sumber, sistem membuat subfolder bernama conf. Dalam folder ini, file bernama lighter-config.json berisi beberapa metadata sistem yang diperlukan untuk eksekusi jarak jauh. JANGAN membuat perubahan apa pun pada perubahan tersebut.

  5. File bernama sparkconf.py berisi cuplikan kode yang perlu Anda tambahkan untuk menyiapkan objek SparkConf . Untuk mengaktifkan debug jarak jauh, pastikan objek SparkConf disiapkan dengan benar. Gambar berikut menunjukkan versi asli kode sumber.

    Cuplikan layar sampel kode, memperlihatkan kode sumber sebelum perubahan.

    Gambar berikutnya adalah kode sumber yang diperbarui setelah Anda menyalin dan menempelkan cuplikan.

    Cuplikan layar sampel kode, memperlihatkan kode sumber setelah perubahan.

  6. Setelah memperbarui kode sumber dengan conf yang diperlukan, Anda harus memilih Python Interpreter yang tepat. Pastikan untuk memilih yang diinstal dari lingkungan conda synapse-spark-kernel .

Mengedit properti definisi kerja Spark

Anda dapat mengedit properti detail definisi pekerjaan Spark, seperti argumen baris perintah.

  1. Pilih opsi Perbarui Konfigurasi SJD untuk membuka file settings.yml. Properti yang ada mengisi isi file ini.

    Cuplikan layar memperlihatkan tempat memilih opsi Perbarui Konfigurasi SJD untuk definisi kerja Spark.

  2. Perbarui dan simpan file .yml.

  3. Pilih opsi Terbitkan Properti SJD di sudut kanan atas untuk menyinkronkan perubahan kembali ke ruang kerja jarak jauh.

    Cuplikan layar memperlihatkan tempat memilih opsi Terbitkan Properti SJD untuk definisi kerja Spark.