Bagikan melalui


Menginstal pustaka dari repositori paket

Azure Databricks menyediakan alat untuk menginstal pustaka dari repositori paket PyPI, Maven, dan CRAN. Lihat Pustaka cakupan kluster untuk detail kompatibilitas pustaka lengkap.

Penting

Pustaka dapat diinstal dari DBFS saat menggunakan Databricks Runtime 14.3 LTS dan di bawahnya. Namun, setiap pengguna ruang kerja dapat memodifikasi file pustaka yang disimpan di DBFS. Untuk meningkatkan keamanan pustaka di ruang kerja Azure Databricks, menyimpan file pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default di Databricks Runtime 15.0 ke atas. Lihat Menyimpan pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default.

Sebagai gantinya, Databricks merekomendasikan untuk mengunggah semua pustaka, termasuk pustaka Python, file JAR, dan konektor Spark, ke file ruang kerja atau volume Katalog Unity, atau menggunakan repositori paket pustaka. Jika beban kerja Anda tidak mendukung pola ini, Anda juga dapat menggunakan pustaka yang disimpan di penyimpanan objek cloud.

Paket PyPI

  1. Di daftar tombol Sumber Pustaka, pilih PyPI.

  2. Masukkan nama paket PyPI. Untuk menginstal versi pustaka tertentu, gunakan format ini untuk pustaka: <library>==<version>. Contohnya,scikit-learn==0.19.1.

    Catatan

    Untuk pekerjaan, Databricks merekomendasikan agar Anda menentukan versi pustaka untuk memastikan lingkungan yang dapat direproduksi. Jika versi pustaka tidak sepenuhnya ditentukan, Databricks menggunakan versi terbaru yang cocok. Ini berarti bahwa eksekusi yang berbeda dari pekerjaan yang sama mungkin menggunakan versi pustaka yang berbeda saat versi baru diterbitkan. Menentukan versi pustaka mencegah perubahan baru yang melanggar di pustaka agar tidak merusak pekerjaan Anda.

  3. (Opsional) Di bidang URL Indeks masukkan URL indeks PyPI.

  4. Klik Pasang.

Paket Maven atau Spark

Penting

Untuk menginstal pustaka Maven pada komputasi yang dikonfigurasi dengan mode akses bersama, Anda harus menambahkan koordinat ke daftar yang diizinkan. Lihat Izinkan pustaka dan skrip init pada komputasi bersama.

Penting

Untuk DBR 14.3 LTS ke bawah, Databricks menggunakan Apache Ivy 2.4.0 untuk menyelesaikan paket Maven. Untuk DBR 15.0 ke atas, Databricks menggunakan Ivy 2.5.1 atau lebih tinggi dan versi Ivy tertentu tercantum dalam versi dan kompatibilitas catatan rilis Runtime Databricks.

Urutan penginstalan paket Maven dapat memengaruhi pohon dependensi akhir, yang dapat memengaruhi urutan di mana pustaka dimuat.

  1. Di daftar tombol Sumber Pustaka, pilih Maven.

  2. Tentukan koordinat Maven. Lakukan salah satu hal berikut ini:

    • Di bidang Koordinat, masukkan koordinat Maven pustaka untuk memasang. Koordinat Maven dalam bentuk groupId:artifactId:version; misalnya, com.databricks:spark-avro_2.10:1.0.0.
    • Jika Anda tidak mengetahui koordinat yang tepat, masukkan nama pustaka dan klik Cari Paket. Daftar paket yang cocok ditampilkan. Untuk menampilkan detail tentang paket, klik namanya. Anda dapat mengurutkan paket berdasarkan nama, organisasi, dan peringkat. Anda juga dapat memfilter hasil dengan menulis kueri di bilah pencarian. Hasilnya menyegarkan secara otomatis.
      1. Pilih Maven Central atau Paket Spark dalam daftar drop-down di kiri atas.
      2. Pilih versi paket secara opsional di kolom Rilis.
      3. Klik + Pilih di samping paket. Bidang Koordinat diisi dengan paket dan versi yang dipilih.
  3. (Opsional) Di bidang Repositori, Anda dapat memasukkan URL repositori Maven.

    Catatan

    Repositori Maven internal tidak didukung.

  4. Di bidang Pengecualian, secara opsional berikan groupId dan artifactId dependensi yang ingin Anda kecualikan (misalnya, log4j:log4j).

    Catatan

    Maven bekerja dengan menggunakan versi terdekat-ke-akar, dan dalam kasus dua paket bersaing untuk versi dengan dependensi yang berbeda, pesanan penting, sehingga mungkin gagal ketika paket dengan dependensi yang lebih lama dimuat terlebih dahulu.

    Untuk mengatasi hal ini, kecualikan pustaka yang bertentangan. Misalnya, saat menginstal paket dengan koordinat com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, atur bidang Pengecualian ke com.nimbusds:oauth2-oidc-sdk:RELEASE sehingga versi eventhubs terbaru dari MSAL4J dimuat dan eventhubs dependensi terpenuhi.

  5. Klik Pasang.

Paket CRAN

  1. Di daftar tombol Sumber Pustaka, pilih CRAN.
  2. Di bidang Paket, masukkan nama paket.
  3. (Opsional) Di bidang Repositori, Anda dapat memasukkan URL repositori CRAN.
  4. Klik Pasang.

Catatan

Cermin CRAN melayani versi terbaru dari perpustakaan. Akibatnya, Anda mungkin berakhir dengan versi paket R yang berbeda jika Anda melampirkan perpustakaan ke kluster yang berbeda pada waktu yang berbeda. Untuk mempelajari cara mengelola dan memperbaiki versi paket R di Databricks, lihat Basis Pengetahuan.