Paket ruang kerja
Paket ruang kerja dapat berupa file roda kustom atau privat (Python), jar (Scala/Java), atau tar.gz (R). Anda dapat mengunggah paket-paket ini ke ruang kerja Anda lalu menetapkannya ke kumpulan Spark tertentu.
Untuk menambahkan paket ruang kerja:
- Navigasikan ke tab Kelola>Paket ruang kerja.
- Unggah file roda Anda dengan menggunakan pemilih file.
- Setelah file diunggah ke ruang kerja Azure Synapse, Anda dapat menambahkan paket ini ke kumpulan Apache Spark yang diberikan.
Peringatan
Dalam Azure Synapse, kumpulan Apache Spark dapat memanfaatkan pustaka kustom yang diunggah sebagai Paket Ruang Kerja atau diunggah dalam jalur Azure Data Lake Storage yang terkenal. Namun, kedua opsi ini tidak dapat digunakan secara bersamaan dalam kumpulan Apache Spark yang sama. Jika paket disediakan menggunakan kedua metode, hanya file roda yang ditentukan dalam daftar paket Ruang Kerja yang akan diinstal.
Setelah Paket Ruang Kerja digunakan untuk menginstal paket pada kumpulan Apache Spark tertentu, ada batasan bahwa Anda tidak dapat lagi menentukan paket menggunakan jalur akun Penyimpanan di kumpulan yang sama.
Catatan
Disarankan agar Anda tidak memiliki beberapa paket roda dengan nama yang sama di ruang kerja. Jika Anda ingin menggunakan versi yang berbeda dari paket roda yang sama, Anda harus menghapus versi yang ada dan mengunggah yang baru.
Akun penyimpanan
Paket roda yang dibuat khusus dapat dipasang pada kumpulan Apache Spark dengan mengunggah semua file roda ke akun Azure Data Lake Storage (Gen2) yang ditautkan dengan ruang kerja Synapse.
File harus diunggah ke jalur berikut di penampung default akun penyimpanan:
abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/
Peringatan
- Dalam beberapa kasus, Anda mungkin perlu membuat jalur file berdasarkan struktur di atas jika belum ada. Misalnya, Anda mungkin perlu menambahkan folder
python
di dalam folderlibraries
jika belum ada. - Metode pengelolaan file roda kustom ini tidak akan didukung pada Azure Synapse Runtime untuk Apache Spark 3.0. Silakan merujuk ke fitur paket Ruang Kerja untuk mengelola file roda kustom.
Penting
Untuk memasang pustaka kustom menggunakan metode Azure DataLake Storage, Anda harus memiliki izin Storage Blob Data Contributor atau Storage Blob Data Owner di akun Storage Gen2 utama yang ditautkan ke Azure Synapse ruang kerja analitik.
Langkah berikutnya
- Lihat pustaka default: dukungan versi Apache Spark
- Memecahkan masalah kesalahan penginstalan perpustakaan: Memecahkan masalah kesalahan perpustakaan
- Buat saluran Conda privat menggunakan Akun Azure Data Lake Storage Anda: Saluran privat Conda
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk