Menyiapkan data dan lingkungan untuk ML dan DL

Bagian ini menjelaskan cara menyiapkan data dan lingkungan Azure Databricks Anda untuk pembelajaran mesin dan pembelajaran mendalam.

Siapkan data

Artikel di bagian ini mencakup aspek pemuatan dan pra-pemrosesan data yang khusus untuk aplikasi ML dan DL.

Menyiapkan lingkungan

Databricks Runtime for Pembelajaran Mesin (Databricks Runtime ML) adalah lingkungan siap pakai yang dioptimalkan untuk pembelajaran mesin dan ilmu data. Databricks Runtime ML mencakup banyak pustaka eksternal, termasuk TensorFlow, PyTorch, Horovod, scikit-learn dan XGBoost, dan menyediakan ekstensi untuk meningkatkan kinerja, termasuk akselerasi GPU di XGBoost, pembelajaran mendalam terdistribusi menggunakan HorovodRunner, dan pemeriksaan model menggunakan Dudukan Fuse Databricks File System (DBFS).

Untuk menggunakan Databricks Runtime ML, pilih versi runtime ML saat Anda membuat kluster.

Catatan

Untuk mengakses data di Unity Catalog untuk alur kerja pembelajaran mesin, mode akses untuk kluster harus pengguna tunggal (ditetapkan). Kluster bersama tidak kompatibel dengan Databricks Runtime untuk Pembelajaran Mesin.

Menginstal pustaka

Anda dapat menginstal pustaka tambahan untuk membuat lingkungan kustom untuk notebook atau kluster Anda.

  • Untuk membuat pustaka tersedia untuk semua notebook yang berjalan di kluster, buat pustaka kluster. Anda juga dapat menggunakan skrip init untuk menginstal pustaka pada kluster saat pembuatan.
  • Untuk menginstal pustaka yang hanya tersedia untuk sesi notebook tertentu, gunakan Pustaka Python cakupan Notebook.

Menggunakan kluster GPU

Anda dapat membuat kluster GPU untuk mempercepat tugas pembelajaran mendalam. Untuk informasi tentang membuat kluster GPU Azure Databricks, lihat Komputasi berkemampuan GPU. Databricks Runtime ML mencakup driver perangkat keras GPU dan pustaka NVIDIA seperti CUDA.