Bagikan melalui


Lingkungan Eksekusi Databricks untuk Pembelajaran Mesin

Halaman ini menjelaskan Runtime Databricks untuk Pembelajaran Mesin dan memberikan panduan tentang cara membuat sumber daya komputasi klasik yang menggunakannya.

Apa itu Databricks Runtime untuk Pembelajaran Mesin?

Databricks Runtime for Machine Learning (Databricks Runtime ML) mengotomatiskan pembuatan sumber daya komputasi dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum.

Pustaka yang termasuk dalam Databricks Runtime ML

Databricks Runtime ML mencakup berbagai pustaka ML populer. Perpustakaan diperbarui dalam setiap rilis untuk menyertakan fitur dan perbaikan baru.

Databricks telah menetapkan subset pustaka yang didukung sebagai pustaka tingkat atas. Untuk pustaka ini, Databricks menyediakan kecepatan pembaruan yang lebih cepat, memperbarui ke rilis paket terbaru dengan setiap rilis runtime kecuali jika ada konflik dependensi. Databricks juga menyediakan dukungan tingkat lanjut, pengujian, dan optimasi yang terintegrasi untuk perpustakaan terkemuka. Pustaka tingkat teratas ditambahkan atau dihapus hanya dengan rilis utama.

  • Untuk daftar lengkap perpustakaan kelas atas dan perpustakaan lain yang disediakan, lihat catatan rilis untuk Databricks Runtime ML.
  • Untuk informasi tentang seberapa sering library diperbarui dan kapan library dihentikan, lihat kebijakan pemeliharaan Databricks Runtime ML .

Anda dapat menginstal pustaka tambahan untuk membuat lingkungan kustom untuk buku catatan atau sumber daya komputasi Anda.

Membuat sumber daya komputasi dengan Databricks Runtime untuk ML

Untuk membuat sumber daya komputasi yang menggunakan Databricks Runtime untuk ML, pilih kotak centang Machine learning di UI pembuatan komputasi. Ini secara otomatis mengatur mode akses ke Didedikasikan dengan akun Anda sebagai pengguna khusus. Anda dapat menetapkan sumber daya komputasi secara manual ke pengguna atau grup lain di bagian Tingkat Lanjut dari UI komputasi buat.

Untuk komputasi berbasis GPU, pilih jenis instans berkemampuan GPU di menu drop-down Worker type. Untuk daftar lengkap jenis GPU yang didukung, lihat daftar jenis instans yang didukung .

ML Runtime Foton dan Databricks

Saat Anda membuat sumber daya komputasi yang menjalankan Databricks Runtime 15.2 ML atau lebih tinggi, Anda dapat memilih untuk mengaktifkan Photon. Photon meningkatkan performa untuk aplikasi menggunakan Spark SQL, Spark DataFrames, rekayasa fitur, GraphFrames, dan xgboost4j. Hal ini tidak diharapkan untuk meningkatkan performa pada aplikasi menggunakan Spark RDD, Pandas UDF, dan bahasa non-JVM seperti Python. Dengan demikian, paket Python seperti XGBoost, PyTorch, dan TensorFlow tidak akan melihat peningkatan dengan Photon.

API Spark RDD dan Spark MLlib memiliki kompatibilitas terbatas dengan Photon. Saat memproses himpunan data besar menggunakan Spark RDD atau Spark MLlib, Anda mungkin mengalami masalah memori Spark. Lihat permasalahan memori Spark.

Mode akses komputasi untuk Databricks Runtime ML

Untuk mengakses data di Unity Catalog pada sumber daya komputasi yang menjalankan Databricks Runtime ML, Anda harus mengatur mode akses ke Khusus. Mode akses secara otomatis diatur dalam antarmuka pengguna komputasi saat Anda memilih kotak centang Pembelajaran mesin.

Saat sumber daya komputasi memiliki mode Akses khusus, sumber daya dapat ditetapkan ke satu pengguna atau grup. Saat ditetapkan ke grup, izin pengguna secara otomatis menurunkan cakupan ke izin grup, memungkinkan pengguna untuk berbagi sumber daya dengan aman dengan anggota grup lainnya.

Saat menggunakan mode akses khusus, fitur berikut hanya tersedia di Databricks Runtime 15.4 LTS ML ke atas:

Melatih model

Sumber daya berikut menunjukkan kepada Anda cara melatih pembelajaran mesin dan model AI pada Mosaic AI dan Databricks Runtime for Machine Learning.

Pelatihan Model AI Mosaic menyederhanakan dan menyatukan proses pelatihan dan penyebaran model ML tradisional melalui beban kerja AutoML dan Penyempurnaan Model Foundation.

AutoML

AutoML menyederhanakan proses penerapan pembelajaran mesin ke himpunan data Anda dengan secara otomatis menemukan algoritma terbaik dan konfigurasi hiperparameter. AutoML menawarkan antarmuka pengguna tanpa kode serta API Python.

Penyempurnaan Model Dasar

Penyempurnaan Model Dasar (sekarang bagian dari Pelatihan Model AI Mosaik) di Azure Databricks memungkinkan Anda menyesuaikan model bahasa besar (LLM) menggunakan data Anda sendiri. Proses ini melibatkan penyempurnaan pelatihan model fondasi yang sudah ada sebelumnya, secara signifikan mengurangi data, waktu, dan sumber daya komputasi yang diperlukan dibandingkan dengan melatih model dari awal. Fitur utama meliputi:

  • Penyempurnaan instruksi: Menyesuaikan model Anda ke tugas baru dengan melatih data respons perintah terstruktur.
  • Pra-pelatihan lanjutan: Tingkatkan model Anda dengan data teks tambahan untuk menambahkan pengetahuan baru atau fokus pada domain tertentu.
  • Penyelesaian obrolan: Latih model Anda pada catatan obrolan untuk meningkatkan kemampuan percakapan.

Contoh pustaka sumber terbuka

Lihat contoh pelatihan pembelajaran mesin dari berbagai pustaka pembelajaran mesin sumber terbuka, termasuk contoh penyetelan hyperparameter menggunakan Optuna dan Hyperopt.

Pembelajaran mendalam

Lihat contoh dan praktik terbaik untuk pelatihan pembelajaran mendalam terdistribusi untuk mengembangkan dan menyempurnakan model pembelajaran mendalam di Azure Databricks.

Pemberi Rekomendasi

Pelajari cara melatih model rekomendasi berbasis pembelajaran mendalam di Azure Databricks. Dibandingkan dengan model rekomendasi tradisional, model pembelajaran mendalam dapat mencapai hasil kualitas yang lebih tinggi dan menskalakan ke jumlah data yang lebih besar.