Bagikan melalui


Lingkungan Eksekusi Databricks untuk Pembelajaran Mesin

Halaman ini menjelaskan Runtime Databricks untuk Pembelajaran Mesin dan memberikan panduan tentang cara membuat sumber daya komputasi klasik yang menggunakannya.

Apa itu Databricks Runtime untuk Pembelajaran Mesin?

Databricks Runtime for Machine Learning (Databricks Runtime ML) mengotomatiskan pembuatan sumber daya komputasi dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum.

Pustaka yang termasuk dalam Databricks Runtime ML

Databricks Runtime ML mencakup berbagai pustaka ML populer. Perpustakaan diperbarui dalam setiap rilis untuk menyertakan fitur dan perbaikan baru.

Databricks telah menetapkan subset pustaka yang didukung sebagai pustaka tingkat atas. Untuk pustaka ini, Databricks menyediakan kecepatan pembaruan yang lebih cepat, memperbarui ke rilis paket terbaru dengan setiap rilis runtime kecuali jika ada konflik dependensi. Databricks juga menyediakan dukungan tingkat lanjut, pengujian, dan optimasi yang terintegrasi untuk perpustakaan terkemuka. Pustaka tingkat teratas ditambahkan atau dihapus hanya dengan rilis utama.

  • Untuk daftar lengkap perpustakaan kelas atas dan perpustakaan lain yang disediakan, lihat catatan rilis untuk Databricks Runtime ML.
  • Untuk informasi tentang seberapa sering library diperbarui dan kapan library dihentikan, lihat kebijakan pemeliharaan Databricks Runtime ML .

Anda dapat menginstal pustaka tambahan untuk membuat lingkungan kustom untuk buku catatan atau sumber daya komputasi Anda.

Membuat sumber daya komputasi dengan Databricks Runtime untuk ML

Untuk membuat sumber daya komputasi yang menggunakan Databricks Runtime untuk ML, pilih kotak centang Machine learning di UI pembuatan komputasi. Ini secara otomatis mengatur mode akses ke Didedikasikan dengan akun Anda sebagai pengguna khusus. Anda dapat menetapkan sumber daya komputasi secara manual ke pengguna atau grup lain di bagian Tingkat Lanjut dari UI komputasi buat.

Untuk komputasi berbasis GPU, pilih jenis instans berkemampuan GPU di menu drop-down Worker type. Untuk daftar lengkap jenis GPU yang didukung, lihat daftar jenis instans yang didukung .

ML Runtime Foton dan Databricks

Saat Anda membuat sumber daya komputasi yang menjalankan Databricks Runtime 15.2 ML atau lebih tinggi, Anda dapat memilih untuk mengaktifkan Photon. Photon meningkatkan performa untuk aplikasi menggunakan Spark SQL, Spark DataFrames, rekayasa fitur, GraphFrames, dan xgboost4j. Hal ini tidak diharapkan untuk meningkatkan performa pada aplikasi menggunakan Spark RDD, Pandas UDF, dan bahasa non-JVM seperti Python. Dengan demikian, paket Python seperti XGBoost, PyTorch, dan TensorFlow tidak akan melihat peningkatan dengan Photon.

API Spark RDD dan Spark MLlib memiliki kompatibilitas terbatas dengan Photon. Saat memproses himpunan data besar menggunakan Spark RDD atau Spark MLlib, Anda mungkin mengalami masalah memori Spark. Lihat permasalahan memori Spark.

Mode akses komputasi untuk Databricks Runtime ML

Untuk mengakses data di Unity Catalog pada sumber daya komputasi yang menjalankan Databricks Runtime ML, Anda harus mengatur mode akses ke Khusus. Mode akses secara otomatis diatur dalam antarmuka pengguna komputasi saat Anda memilih kotak centang Pembelajaran mesin.

Saat sumber daya komputasi memiliki mode Akses khusus, sumber daya dapat ditetapkan ke satu pengguna atau grup. Saat ditetapkan ke grup, izin pengguna secara otomatis menurunkan cakupan ke izin grup, memungkinkan pengguna untuk berbagi sumber daya dengan aman dengan anggota grup lainnya.

Saat menggunakan mode akses khusus, fitur berikut hanya tersedia di Databricks Runtime 15.4 LTS ML ke atas: