Mengelola pustaka Apache Spark di Microsoft Fabric

Pustaka menyediakan kode yang dapat digunakan kembali yang mungkin ingin disertakan pengembang Apache Spark dalam aplikasi Spark mereka.

Setiap ruang kerja dilengkapi dengan sekumpulan pustaka yang telah diinstal sebelumnya yang tersedia dalam run-time Spark yang dapat Anda gunakan segera dalam definisi kerja notebook atau Spark. Kami menyebutnya sebagai pustaka bawaan.

Penting

Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, dinyatakan atau tersirat, sehubungan dengan informasi yang diberikan di sini.

Berdasarkan skenario dan kebutuhan tertentu, Anda dapat menyertakan pustaka lain. Ada dua jenis pustaka yang mungkin ingin Anda sertakan:

  • Pustaka umpan: Pustaka umpan berasal dari sumber atau repositori publik. Anda dapat menginstal pustaka umpan Python dari PyPI dan Conda dengan menentukan sumber di portal Manajemen Pustaka. Anda juga dapat menggunakan file .yml spesifikasi lingkungan Conda untuk menginstal pustaka.

  • Pustaka kustom: Pustaka kustom adalah kode yang dibuat oleh Anda atau organisasi Anda. .whl, .jar , dan .tar.gz dapat dikelola melalui portal Manajemen Pustaka. Perhatikan bahwa .tar.gz hanya didukung untuk bahasa R; gunakan .whl untuk pustaka kustom Python.

Ringkasan manajemen pustaka dan praktik terbaik

Anda dapat mengelola semua jenis pustaka yang disebutkan sebelumnya melalui dua titik entri yang berbeda: manajemen pustaka dalam pengaturan ruang kerja dan penginstalan sebaris.

  • Manajemen pustaka ruang kerja: Pengaturan pustaka ruang kerja menentukan lingkungan kerja untuk seluruh ruang kerja. Pustaka yang diinstal pada tingkat ruang kerja tersedia untuk semua definisi pekerjaan Notebooks dan Spark di bawah ruang kerja tersebut. Perbarui pustaka ruang kerja saat Anda ingin menyiapkan lingkungan bersama untuk semua item di ruang kerja.

    Penting

    Manajemen pustaka ruang kerja hanya dibatasi untuk admin ruang kerja. Anggota, kontributor, dan penampil ruang kerja dapat melihat pustaka yang diinstal oleh administrator.

  • Penginstalan sebaris: Dengan penginstalan sebaris, Anda dapat menginstal pustaka untuk sesi buku catatan Anda tanpa memengaruhi lingkungan global. Opsi ini nyaman ketika Anda menginginkan solusi sementara dan cepat. Misalnya, Anda mungkin ingin mencoba paket lokal atau menggunakan beberapa paket lain untuk satu sesi. Saat ini, paket Python dan paket R dapat dikelola secara sejalan.

    Penting

    Penginstalan dalam baris bersifat khusus sesi dan tidak bertahan di seluruh sesi.

    Penerjemah Python akan dimulai ulang untuk menerapkan perubahan pustaka, variabel apa pun yang ditentukan sebelum menjalankan sel perintah akan hilang. Oleh karena itu, kami sangat menyarankan Anda untuk menempatkan semua perintah untuk menambahkan, menghapus, atau memperbarui paket Python di awal notebook Anda.

Meringkas semua perilaku manajemen pustaka yang saat ini tersedia di Fabric:

Nama pustaka Pembaruan ruang kerja Penginstalan dalam baris
Umpan Python (PyPI & Conda) Didukung Didukung
Python Custom (.whl) Didukung Didukung
Umpan R (CRAN) Tidak didukung Didukung
Kustom R (.tar.gz) Didukung Didukung
Jar Didukung Tidak didukung

Penting

Saat ini kami memiliki batasan pustaka .jar .

  • Jika Anda mengunggah file .jar dengan versi pustaka bawaan yang berbeda, itu tidak akan efektif. Hanya .jar baru yang akan efektif untuk sesi Spark Anda.
  • %% mengonfigurasi perintah ajaib tidak sepenuhnya didukung pada Fabric saat ini. Jangan gunakan untuk membawa file .jar ke sesi buku catatan Anda.

Manajemen pustaka dalam pengaturan ruang kerja

Di bawah Pengaturan ruang kerja, Anda menemukan portal manajemen pustaka tingkat ruang kerja: Pengaturan> ruang kerjaManajemen pustakarekayasa> data.

Mengelola pustaka umpan dalam pengaturan ruang kerja

Di bagian ini, kami menjelaskan cara mengelola pustaka umpan dari PyPI atau Conda menggunakan portal manajemen pustaka ruang kerja.

  • Lihat dan cari pustaka umpan: Anda dapat melihat pustaka yang diinstal dan nama, versi, dan dependensinya di portal manajemen pustaka. Anda juga dapat menggunakan kotak filter di sudut kanan atas untuk menemukan pustaka yang diinstal dengan cepat.

  • Tambahkan pustaka umpan baru: Sumber default untuk menginstal pustaka umpan Python adalah PyPI. Anda juga dapat memilih "Conda" dari tombol drop-down di samping tombol tambahkan. Untuk menambahkan pustaka baru, pilih tombol + dan masukkan nama dan versi pustaka di baris baru.

    Atau, Anda dapat mengunggah file .yml untuk menginstal beberapa pustaka umpan sekaligus.

  • Hapus pustaka umpan yang ada: Untuk menghapus pustaka, pilih tombol Sampah pada barisnya.

  • Perbarui versi pustaka umpan yang ada: Untuk mengubah versi pustaka, pilih yang berbeda dari kotak drop-down pada barisnya.

  • Tinjau dan terapkan perubahan: Anda dapat meninjau perubahan di panel "Perubahan tertunda". Anda dapat menghapus perubahan dengan mengklik tombol X , atau membuang semua perubahan dengan mengklik tombol Buang di bagian bawah halaman. Saat Anda puas dengan perubahan Anda, pilih Terapkan untuk membuat perubahan ini efektif.

Mengelola pustaka kustom dalam pengaturan ruang kerja

Di bagian ini, kami menjelaskan cara mengelola paket kustom Anda, seperti .jar, menggunakan portal manajemen pustaka ruang kerja.

  • Unggah pustaka kustom baru: Anda dapat mengunggah kode kustom Anda sebagai paket ke runtime Fabric melalui portal. Modul manajemen pustaka membantu Anda mengatasi potensi konflik dan mengunduh dependensi di pustaka kustom Anda.

    Untuk mengunggah paket, pilih tombol Unggah di bawah panel Pustaka kustom dan pilih direktori lokal.

  • Hapus pustaka kustom yang ada: Anda dapat menghapus pustaka kustom dari runtime Spark dengan mengklik tombol sampah di bawah panel Pustaka kustom .

  • Tinjau dan terapkan perubahan: Seperti halnya pustaka umpan, Anda dapat meninjau perubahan di panel Perubahan tertunda dan menerapkannya ke lingkungan ruang kerja Fabric Spark Anda.

Catatan

Untuk paket .whl , proses penginstalan pustaka akan mengunduh dependensi dari sumber publik secara otomatis. Namun, fitur ini tidak tersedia untuk paket .tar.gz . Anda perlu mengunggah paket dependen dari paket .tar.gz utama secara manual jika ada.

Batalkan pembaruan

Proses pembaruan pustaka mungkin perlu waktu untuk diselesaikan. Anda dapat membatalkan proses dan melanjutkan pengeditan saat sedang diperbarui. Tombol Batal muncul selama proses.

Pemecahan Masalah

Jika proses pembaruan pustaka gagal, Anda akan menerima pemberitahuan. Anda dapat memilih tombol Tampilkan log untuk melihat detail log dan memecahkan masalah. Jika Anda mengalami kesalahan sistem, Anda dapat menyalin ID aktivitas akar dan melaporkannya ke tim dukungan.

Penginstalan dalam baris

Jika Anda ingin menggunakan beberapa paket lain untuk pengujian cepat dalam eksekusi notebook interaktif, penginstalan sebaris adalah opsi yang paling nyaman.

Penting

%pip disarankan alih-alih !pip. !pip adalah perintah shell bawaan IPython yang memiliki batasan berikut:

  • !pip hanya akan menginstal paket pada simpul driver tanpa simpul eksekutor.
  • Paket yang diinstal melalui !pip tidak akan mempengaruhi ketika konflik dengan paket bawaan atau ketika sudah diimpor di buku catatan.

Namun, %pip akan menangani semua skenario yang disebutkan di atas. Pustaka yang diinstal melalui %pip akan tersedia pada simpul driver dan eksekutor dan masih akan efektif bahkan sudah diimpor.

Tip

  • Perintah penginstalan %conda biasanya membutuhkan waktu lebih lama dari perintah penginstalan %pip untuk menginstal pustaka Python baru, karena memeriksa dependensi lengkap dan mengatasi konflik. Anda mungkin ingin menggunakan penginstalan %conda untuk lebih keandalan dan stabilitas. Anda dapat menggunakan penginstalan %pip jika Anda yakin bahwa pustaka yang ingin Anda instal tidak bertentangan dengan pustaka yang telah diinstal sebelumnya di lingkungan runtime.
  • Semua perintah in-line Python yang tersedia dan klarifikasinya dapat ditemukan: %pip commands dan %conda commands

Mengelola pustaka umpan Python melalui penginstalan in-line

Dalam contoh ini, kami menunjukkan kepada Anda cara menggunakan perintah sebaris untuk mengelola pustaka. Misalkan Anda ingin menggunakan altair, pustaka visualisasi yang kuat untuk Python, untuk eksplorasi data satu kali. Dan misalkan pustaka tidak diinstal di ruang kerja Anda. Dalam contoh berikut, kami menggunakan perintah conda untuk mengilustrasikan langkah-langkahnya.

Anda bisa menggunakan perintah sebaris untuk mengaktifkan altair pada sesi buku catatan Anda tanpa memengaruhi sesi buku catatan atau item lainnya.

  1. Jalankan perintah berikut dalam sel kode buku catatan untuk menginstal pustaka altair dan vega_datasets, yang berisi himpunan data yang bisa Anda gunakan untuk memvisualisasikan:

    %conda install altair          # install latest version through conda command
    %conda install vega_datasets   # install latest version through conda command
    

    Log dalam output sel menunjukkan hasil penginstalan.

  2. Impor paket dan himpunan data dengan menjalankan kode berikut di sel buku catatan lain:

    import altair as alt
    from vega_datasets import data
    
  3. Sekarang Anda dapat bermain-main dengan pustaka altair dengan cakupan sesi:

    # load a simple dataset as a pandas DataFrame
    cars = data.cars()
    alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    ).interactive()
    

Mengelola pustaka kustom Python melalui penginstalan sebaris

Anda bisa mengunggah pustaka kustom Python Anda ke folder File lakehouse yang dilampirkan ke buku catatan Anda. Buka lakehouse Anda, pilih ikon ... pada folder File , dan unggah pustaka kustom.

Setelah mengunggah, Anda bisa menggunakan perintah berikut untuk menginstal pustaka kustom ke sesi buku catatan Anda:

# install the .whl through pip command
%pip install /lakehouse/default/Files/wheel_file_name.whl             

Mengelola pustaka umpan R melalui penginstalan dalam baris

Fabric mendukung perintah install.packages(), remove.packages() dan devtools:: untuk mengelola pustaka R.

Tip

Semua perintah R in-line yang tersedia dan klarifikasinya dapat ditemukan: perintah install.packages, perintah remove.package , dan perintah devtools.

Ikuti contoh ini untuk menelusuri langkah-langkah menginstal pustaka umpan R:

  1. Alihkan bahasa kerja ke "SparkR(R)" di pita buku catatan.

  2. Jalankan perintah berikut ini dalam sel buku catatan untuk menginstal pustaka caesar :

    install.packages("caesar")
    
  3. Sekarang Anda dapat bermain-main dengan pustaka caesar cakupan sesi dengan pekerjaan Spark

    library(SparkR)
    sparkR.session()
    
    hello <- function(x) {
    library(caesar)
    caesar(x)
    }
    spark.lapply(c("hello world", "good morning", "good evening"), hello)
    

Langkah berikutnya