Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Azure Databricks menyediakan alat untuk menginstal pustaka dari repositori paket PyPI, Maven, dan CRAN. Lihat pustaka dalam lingkup komputasi untuk detail kompatibilitas pustaka yang lengkap.
Penting
Pustaka dapat diinstal dari DBFS saat menggunakan Databricks Runtime 14.3 LTS dan di bawahnya. Namun, setiap pengguna ruang kerja dapat memodifikasi file pustaka yang disimpan di DBFS. Untuk meningkatkan keamanan pustaka di ruang kerja Azure Databricks, menyimpan file pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default di Databricks Runtime 15.1 ke atas. Lihat Menyimpan pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default.
Sebagai gantinya, Databricks menyarankan mengunggah semua pustaka, termasuk pustaka Python, file JAR, dan konektor Spark, ke file di ruang kerja atau volume Unity Catalog, atau menggunakan repositori paket pustaka. Jika beban kerja Anda tidak mendukung pola ini, Anda juga dapat menggunakan pustaka yang disimpan di penyimpanan objek cloud.
Paket PyPI
Di daftar tombol Pustaka Sumber, pilih PyPI.
Masukkan nama paket PyPI. Untuk menginstal versi pustaka tertentu, gunakan format ini untuk pustaka:
<library>==<version>. Contohnya,scikit-learn==0.19.1.Catatan
Untuk pekerjaan, Databricks merekomendasikan agar Anda menentukan versi pustaka untuk memastikan lingkungan yang dapat direproduksi. Jika versi pustaka tidak sepenuhnya ditentukan, Databricks menggunakan versi terbaru yang cocok. Ini berarti bahwa pengulangan tugas yang sama mungkin menggunakan versi pustaka yang berbeda saat versi baru dirilis. Menentukan versi pustaka dapat mencegah perubahan baru yang merusak pada pustaka agar pekerjaan Anda tidak rusak.
(Opsional) Di bidang URL Indeks masukkan URL indeks PyPI.
Klik Pasang.
Paket Maven atau Spark
Penting
Untuk menginstal pustaka Maven pada komputasi yang dikonfigurasi dengan mode akses standar (sebelumnya mode akses bersama), Anda harus mengatur izin CAN ATTACH TO dan CAN MANAGE pada komputasi dan menambahkan koordinat Maven ke daftar yang diizinkan. Lihat Menambahkan koordinat Maven ke daftar yang diizinkan.
Penting
Untuk Databricks Runtime 14.3 LTS dan di bawahnya, Databricks menggunakan Apache Ivy 2.4.0 untuk menyelesaikan paket Maven. Untuk Databricks Runtime 15.0 ke atas, Databricks menggunakan Ivy 2.5.1 atau lebih tinggi dan versi Ivy tertentu tercantum dalam versi dan kompatibilitas catatan rilis Databricks Runtime.
Urutan penginstalan paket Maven dapat memengaruhi pohon dependensi akhir, yang dapat memengaruhi urutan di mana pustaka dimuat.
Di daftar tombol Sumber Perpustakaan, pilih Maven.
Spesifikasikan koordinat Maven. Lakukan salah satu hal berikut ini:
- Di bidang Koordinat, masukkan koordinat Maven untuk memasang pustaka. Koordinat Maven dalam bentuk
groupId:artifactId:version; misalnya,com.databricks:spark-avro_2.10:1.0.0. - Jika Anda tidak mengetahui koordinat yang tepat, masukkan nama pustaka dan klik Paket Pencarian. Daftar paket yang cocok ditampilkan. Untuk menampilkan detail tentang paket, klik namanya. Anda dapat mengurutkan paket berdasarkan nama, organisasi, dan peringkat. Anda juga dapat memfilter hasil dengan menulis kueri di bilah pencarian. Hasilnya diperbarui secara otomatis.
- Pilih Maven Central atau Paket Spark dalam daftar drop-down di kiri atas.
- Pilih versi paket secara opsional di kolom Rilis.
- Klik + Pilih di samping paket. Bidang Koordinat diisi dengan paket dan versi yang dipilih.
- Di bidang Koordinat, masukkan koordinat Maven untuk memasang pustaka. Koordinat Maven dalam bentuk
(Opsional) Di bidang Repositori, Anda dapat memasukkan URL repositori Maven.
Catatan
Untuk repositori Maven internal, Anda harus menonaktifkan pemecah masalah Maven Central default dengan mengatur
spark.databricks.driver.disableDefaultMavenCentralResolveratauspark.databricks.driver.disableSparkPackagesResolverketrue. Konfigurasi baru ini tidak menonaktifkanspark.databricks.driver.preferredMavenCentralMirrorUrl.Di bidang Pengecualian, secara opsional berikan
groupIddanartifactIddependensi yang ingin Anda kecualikan (misalnya,log4j:log4j).Catatan
Maven bekerja dengan menggunakan versi yang paling mendekati akar, dan dalam kasus dua paket bersaing untuk versi dengan dependensi yang berbeda, urutan menjadi penting, sehingga dapat gagal ketika paket yang memiliki dependensi lebih lama dimuat terlebih dahulu.
Untuk mengatasi hal ini, kecualikan pustaka yang bertentangan. Misalnya, saat menginstal paket dengan koordinat
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, atur bidang Pengecualian kecom.nimbusds:oauth2-oidc-sdk:RELEASEsehingga versieventhubsterbaru dari MSAL4J dimuat daneventhubsdependensi terpenuhi.Klik Pasang.
Paket CRAN
- Di daftar tombol Sumber Perpustakaan, pilih CRAN.
- Di bidang Paket, masukkan nama paket.
- (Opsional) Di bidang Repositori, Anda dapat memasukkan URL repositori CRAN.
- Klik Pasang.
Catatan
Cermin CRAN melayani versi terbaru dari perpustakaan. Akibatnya, Anda mungkin berakhir dengan versi paket R yang berbeda jika Anda melampirkan perpustakaan ke kluster yang berbeda pada waktu yang berbeda. Untuk mempelajari cara mengelola dan memperbaiki versi paket R di Databricks, lihat Basis Pengetahuan.