Baca dalam bahasa Inggris

Bagikan melalui


Pustaka

Untuk membuat kode pihak ketiga atau kustom tersedia untuk buku catatan dan pekerjaan yang berjalan di sumber daya komputasi Anda, Anda bisa menginstal pustaka. Pustaka dapat ditulis dalam Python, Java, Scala, dan R. Anda dapat mengunggah pustaka Python, Java, dan Scala dan menunjuk ke paket eksternal di repositori PyPI, Maven, dan CRAN.

Azure Databricks menyertakan banyak pustaka umum di Databricks Runtime. Untuk melihat pustaka mana yang disertakan dalam Databricks Runtime, lihat sub-bagian Lingkungan Sistem dari catatan rilis Databricks Runtime untuk versi Databricks Runtime Anda.

Catatan

Dukungan Microsoft membantu mengisolasi dan menyelesaikan masalah yang terkait dengan pustaka yang diinstal dan dikelola oleh Azure Databricks. Untuk komponen pihak ketiga, termasuk perpustakaan, Microsoft menyediakan dukungan yang wajar secara komersial untuk membantu Anda memecahkan masalah lebih lanjut. Dukungan Microsoft membantu dengan upaya terbaik dan mungkin dapat mengatasi masalah ini. Untuk konektor dan proyek sumber terbuka yang di-hosting di Github, kami sarankan Anda mengajukan masalah pada Github dan menindaklanjutinya. Upaya pengembangan seperti wadah naungan atau membangun perpustakaan Python tidak didukung melalui proses pengajuan kasus dukungan standar: kasus ini memerlukan keterlibatan konsultasi untuk resolusi yang lebih cepat. Dukungan mungkin meminta Anda untuk melibatkan saluran lain untuk teknologi sumber terbuka di mana Anda dapat menemukan keahlian yang mendalam untuk teknologi tersebut. Ada beberapa situs komunitas; antara lain halaman Microsoft Q&A untuk Azure Databricks dan Stack Overflow.

pustaka khusus komputasi

Anda dapat menginstal pustaka pada sumber daya komputasi sehingga dapat digunakan oleh semua buku catatan dan pekerjaan yang berjalan pada komputasi. Databricks mendukung pustaka Python, JAR, dan R. Lihat Perpustakaan Kluster.

Anda dapat menginstal pustaka cakupan komputasi langsung dari sumber berikut:

Tidak semua lokasi didukung untuk semua jenis pustaka atau semua konfigurasi komputasi. Lihat Rekomendasi untuk mengunggah pustaka untuk rekomendasi konfigurasi.

Penting

Pustaka dapat diinstal dari DBFS saat menggunakan Databricks Runtime 14.3 LTS dan di bawahnya. Namun, setiap pengguna ruang kerja dapat memodifikasi file pustaka yang disimpan di DBFS. Untuk meningkatkan keamanan pustaka di ruang kerja Azure Databricks, menyimpan file pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default di Databricks Runtime 15.1 ke atas. Lihat Menyimpan pustaka di akar DBFS tidak digunakan lagi dan dinonaktifkan secara default.

Sebagai gantinya, Databricks menyarankan untuk mengunggah semua pustaka, termasuk pustaka Python, file JAR, dan konektor Spark, ke dalam file ruang kerja atau volume Unity Catalog, atau menggunakan repositori paket pustaka. Jika beban kerja Anda tidak mendukung pola ini, Anda juga dapat menggunakan pustaka yang disimpan di penyimpanan objek cloud.

Untuk informasi dukungan pustaka lengkap, lihat Dukungan pustaka Python, dukungan pustaka Java dan Scala, dan dukungan pustaka R.

Rekomendasi untuk mengunggah pustaka

Databricks mendukung sebagian besar penginstalan konfigurasi pustaka Python, JAR, dan R, tetapi ada beberapa skenario yang tidak didukung. Disarankan agar Anda mengunggah pustaka ke lokasi sumber yang mendukung penginstalan ke komputasi dengan mode akses standar (sebelumnya mode akses bersama), karena ini adalah mode yang direkomendasikan untuk semua beban kerja. Lihat Mode akses. Saat menjadwalkan pekerjaan dengan mode akses standar, jalankan pekerjaan dengan perwakilan layanan .

Penting

Hanya gunakan komputasi dengan mode akses khusus (sebelumnya mode akses pengguna tunggal) jika fungsionalitas yang diperlukan tidak didukung oleh mode akses standar. Mode akses bersama tanpa isolasi adalah konfigurasi warisan di Databricks yang tidak disarankan.

Tabel berikut ini menyediakan rekomendasi yang diatur berdasarkan versi Databricks Runtime dan aktivasi Unity Catalog.

Konfigurasi Rekomendasi
Databricks Runtime 13.3 LTS ke atas dengan Unity Catalog Instal pustaka pada komputasi dengan mode akses standar dari unity Catalog volume dengan GRANT READ untuk pengguna yang diperlukan.
Jika berlaku, koordinat Maven dan jalur pustaka JAR perlu ditambahkan ke daftar yang diizinkan.
Databricks Runtime 11.3 LTS ke atas tanpa Unity Catalog Pasang pustaka dari file ruang kerja. (Batas ukuran file adalah 500 MB.)
Databricks Runtime 10.4 LTS ke bawah Instal pustaka dari penyimpanan objek di cloud.

Dukungan untuk pustaka Python

Tabel berikut menunjukkan kompatibilitas versi Databricks Runtime untuk file roda Python untuk mode akses komputasi yang berbeda berdasarkan lokasi sumber pustaka. Lihat Versi catatan rilis Databricks Runtime dan kompatibilitas dan Mode Akses.

Di Databricks Runtime 15.0 ke atas, Anda dapat menggunakan file requirements.txt untuk mengelola dependensi Python Anda. File-file ini dapat diunggah ke lokasi sumber yang didukung.

Catatan

Menginstal file egg Python hanya didukung pada Databricks Runtime 13.3 LTS dan versi di bawahnya, dan hanya untuk mode akses bersama yang khusus atau tanpa isolasi. Selain itu, Anda tidak dapat menginstal file telur Python pada volume atau file ruang kerja. Gunakan file roda Python atau instal paket dari PyPI sebagai gantinya.

Mode akses standar Mode akses khusus Mode akses bersama tanpa isolasi (Warisan)
PyPI 13.3 LTS ke atas Semua versi Databricks Runtime yang didukung Semua versi Databricks Runtime yang didukung
File ruang kerja 13.3 LTS ke atas 13.3 LTS ke atas 14.1 ke atas
Volume 13.3 LTS ke atas 13.3 LTS ke atas Tidak didukung
Penyimpanan awan 13.3 LTS ke atas Semua versi Databricks Runtime yang didukung Semua versi Databricks Runtime yang didukung
DBFS (Tidak disarankan) Tidak didukung 14.3 ke bawah 14.3 ke bawah

Dukungan pustaka Java dan Scala

Tabel berikut menunjukkan kompatibilitas versi Databricks Runtime untuk file JAR untuk mode akses komputasi yang berbeda berdasarkan lokasi sumber pustaka. Lihat Versi catatan rilis Databricks Runtime dan kompatibilitas dan mode akses.

Catatan

Mode akses standar mengharuskan admin untuk menambahkan koordinat dan jalur Maven untuk pustaka JAR ke allowlist. Lihat pustaka Allowlist dan skrip init pada komputasi dengan mode akses standar (sebelumnya mode akses bersama).

Mode akses standar Mode akses khusus Tidak ada mode akses bersama isolasi (Warisan)
Maven 13.3 LTS ke atas Semua versi Databricks Runtime yang didukung Semua versi Databricks Runtime yang didukung
File ruang kerja Tidak didukung Tidak didukung 14.1 ke atas
Volume 13.3 LTS ke atas 13.3 LTS ke atas Tidak didukung
Penyimpanan cloud 13.3 LTS ke atas Semua versi Databricks Runtime yang didukung Semua versi Databricks Runtime yang didukung
DBFS (Tidak disarankan) Tidak didukung 14.3 ke bawah 14.3 ke bawah

Dukungan pustaka R

Tabel berikut menunjukkan kompatibilitas versi Databricks Runtime untuk paket CRAN untuk mode akses komputasi yang berbeda. Lihat Catatan rilisan versi dan kompatibilitas Databricks Runtime dan Mode Akses.

Mode akses standar Mode akses khusus Mode akses bersama tanpa isolasi (Legasi)
CRAN Tidak didukung Semua versi Databricks Runtime yang didukung Semua versi Databricks Runtime yang didukung

Identitas penginstal

Saat Anda menginstal pustaka dari file Workspace atau volume Katalog Unity, identitas mungkin dikaitkan dengan penginstalan tergantung pada mode akses komputer. Identitas harus memiliki akses baca pada file pustaka.

Mode akses standar Mode akses khusus Mode akses bersama tanpa isolasi (Lama)
Identitas pengguna yang menginstal pustaka Identitas prinsipal khusus Tidak ada identitas

Pustaka dalam lingkup notebook

Pustaka yang tercakup di buku catatan, tersedia untuk Python dan R, memungkinkan Anda menginstal pustaka dan membuat lingkungan yang dicakup ke sesi buku catatan. Pustaka ini tidak memengaruhi buku catatan lain yang berjalan di komputer yang sama. Pustaka yang berada dalam notebook tidak akan tersimpan dan harus diinstal ulang untuk setiap sesi. Gunakan pustaka yang tercakup di buku catatan saat Anda memerlukan lingkungan kustom untuk buku catatan tertentu.

Catatan

JAR tidak dapat diinstal pada level notebook.

Penting

Pustaka ruang kerja sudah tidak dianjurkan lagi penggunaannya dan sebaiknya dihindari. Lihat Pustaka ruang kerja (warisan). Namun, penyimpanan pustaka sebagai file ruang kerja berbeda dari pustaka ruang kerja dan masih didukung sepenuhnya. Anda dapat menginstal pustaka yang disimpan sebagai file ruang kerja langsung ke tugas komputasi atau tugas pekerjaan.

Manajemen lingkungan Python

Tabel berikut memberikan gambaran umum tentang opsi yang dapat Anda gunakan untuk menginstal pustaka Python di Azure Databricks.

Catatan

  • Kontainer kustom yang menggunakan lingkungan berbasis conda tidak kompatibel dengan pustaka cakupan buku catatan dan dengan pustaka komputasi di Databricks Runtime 10.4 LTS ke atas. Sebagai gantinya, Azure Databricks merekomendasikan untuk menginstal pustaka langsung dalam citra atau menggunakan skrip inisialisasi. Untuk terus menggunakan pustaka komputasi dalam skenario tersebut, Anda dapat mengatur konfigurasi Spark spark.databricks.driverNfs.clusterWidePythonLibsEnabled ke false. Dukungan untuk konfigurasi Spark akan dihapus pada atau setelah 31 Desember 2021.
Sumber paket Python Pustaka yang tercakup di buku catatan dengan %pip Pustaka yang dibatasi oleh ruang lingkup buku catatan dengan file YAML lingkungan dasar pustaka bercakupan komputasi Pustaka Pekerjaan dengan API Pekerjaan
PyPI Gunakan %pip install. Lihat contoh. Tambahkan nama paket PyPI ke file YAML lingkungan dasar. Lihat contoh. Pilih PyPI sebagai sumber. Tambahkan objek pypi baru ke pustaka pekerjaan dan tentukan bidang package.
Cermin PyPI privat, seperti Nexus atau Artifactory Gunakan %pip install dengan opsi --index-url. Manajemen rahasia tersedia. Lihat contoh. Tambahkan -–index-url ke file YAML lingkungan dasar. Manajemen rahasia tersedia. Lihat contoh. Tidak didukung. Tidak didukung.
VCS, seperti GitHub, dengan sumber mentah Gunakan %pip install dan tentukan URL repositori sebagai nama paket. Lihat contoh. Tambahkan URL repositori sebagai nama paket ke file YAML lingkungan dasar. Lihat contoh. Pilih PyPI sebagai sumber dan tentukan URL repositori sebagai nama paket. Tambahkan objek pypi baru ke pustaka pekerjaan dan tentukan URL repositori sebagai bidang package.
VCS privat dengan sumber mentah Gunakan %pip install dan tentukan URL repositori dengan autentikasi dasar sebagai nama paket. Manajemen rahasia tersedia. Lihat contoh. Tambahkan repositori dengan autentikasi dasar sebagai nama paket ke file YAML lingkungan dasar. Lihat contoh. Tidak didukung. Tidak didukung.
Jalur file Gunakan %pip install. Lihat contoh. Tambahkan jalur file sebagai nama paket ke file YAML lingkungan dasar. Lihat contoh. Pilih Jalur file/ADLS sebagai sumber. Tambahkan objek egg atau whl baru ke pustaka pekerjaan dan tentukan jalur file sebagai kolom package.
Azure Data Lake Storage Gunakan %pip install bersama dengan URL yang telah ditandatangani sebelumnya. Jalur dengan protokol Azure Data Lake Storage abfss:// tidak didukung. Tambahkan URL yang telah ditandatangani sebelumnya sebagai nama paket ke file YAML lingkungan dasar. Jalur dengan protokol Azure Data Lake Storage abfss:// tidak didukung. Pilih Jalur file/ADLS sebagai sumber. Tambahkan objek egg atau whl baru ke pustaka pekerjaan dan tentukan jalur Azure Data Lake Storage sebagai bidang package.

Prioritas pustaka Python

Anda mungkin mengalami situasi di mana Anda perlu mengambil alih versi untuk pustaka bawaan, atau memiliki pustaka kustom yang bertentangan namanya dengan pustaka lain yang diinstal pada sumber daya komputasi. Saat Anda menjalankan import <library>, pustaka yang memiliki prioritas tinggi akan diimpor.

Penting

Pustaka yang disimpan dalam file ruang kerja memiliki prioritas yang berbeda tergantung pada bagaimana pustaka ditambahkan ke Python sys.path. Folder Databricks Git menambahkan direktori kerja saat ini ke jalur sebelum semua pustaka lain, sementara buku catatan di luar folder Git menambahkan direktori kerja saat ini setelah pustaka lain diinstal. Jika Anda menambahkan direktori ruang kerja secara manual ke jalur Anda, ini selalu memiliki prioritas terendah.

Urutan daftar berikut diutamakan dari tertinggi ke terendah. Dalam daftar ini, angka yang lebih rendah berarti prioritas yang lebih tinggi.

  1. Pustaka di direktori kerja saat ini (hanya folder Git).
  2. Perpustakaan di direktori root folder Git (hanya folder Git).
  3. Pustaka lingkup buku catatan (%pip install di buku catatan).
  4. Pustaka yang difokuskan pada komputasi (menggunakan UI, CLI, atau API).
  5. Pustaka yang disertakan dalam Databricks Runtime.
    • Pustaka yang diinstal dengan skrip init mungkin diselesaikan sebelum atau sesudah pustaka bawaan, tergantung pada cara pustaka diinstal. Databricks tidak merekomendasikan penginstalan pustaka dengan skrip init.
  6. Pustaka di direktori kerja saat ini (bukan di folder Git).
  7. File ruang kerja ditambahkan ke sys.path.