Bagikan melalui


Mengelola dependensi Python untuk alur

Alur Deklaratif Lakeflow Spark mendukung dependensi eksternal dalam alur Anda. Databricks merekomendasikan penggunaan salah satu dari dua pola untuk menginstal paket Python:

  1. Gunakan pengaturan Lingkungan untuk menambahkan paket ke lingkungan alur untuk semua file sumber dalam alur.
  2. Impor modul atau pustaka dari kode sumber yang disimpan dalam file ruang kerja. Lihat Mengimpor modul Python dari folder Git atau file ruang kerja.

Pipeline juga mendukung penggunaan skrip init global dan bercakupan kluster. Namun, dependensi eksternal ini, terutama skrip init, meningkatkan risiko masalah dengan peningkatan runtime. Untuk mengurangi risiko ini, minimalkan menggunakan skrip init di alur Anda. Jika pemrosesan Anda memerlukan skrip init, otomatiskan pengujian alur Anda untuk mendeteksi masalah lebih awal. Jika Anda menggunakan skrip init, Databricks merekomendasikan untuk meningkatkan frekuensi pengujian Anda.

Penting

Karena pustaka JVM tidak didukung dalam alur, jangan gunakan skrip init untuk menginstal pustaka JVM. Namun, Anda dapat menginstal jenis pustaka lain, seperti pustaka Python, dengan skrip init.

pustaka Python

Untuk menentukan pustaka Python eksternal, edit lingkungan kerja untuk pipeline Anda.

  1. Dari editor alur, klik Pengaturan.
  2. Di bawah Lingkungan Pipeline, pilih ikon pensil.Edit lingkungan.
  3. Klik ikon Plus.Tambahkan dependensi.
  4. Ketik nama dependensi. Databricks merekomendasikan mempertahankan versi pustaka. Misalnya, untuk menambahkan dependensi pada simplejson versi 3.19, ketik simplejson==3.19.*.

Anda juga dapat menginstal paket roda Python dari volume Unity Catalog, dengan menentukan jalurnya, seperti /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Dapatkah saya menggunakan pustaka Scala atau Java dalam pipeline?

Tidak, alur hanya mendukung SQL dan Python. Anda tidak dapat menggunakan pustaka JVM dalam pipeline. Menginstal pustaka JVM akan menyebabkan perilaku yang tidak dapat diprediksi, dan dapat rusak dengan rilis Alur Deklaratif Lakeflow Spark di masa mendatang. Jika pipeline Anda menggunakan skrip inisialisasi, Anda juga harus memastikan bahwa pustaka JVM tidak diinstal oleh skrip tersebut.