Bagikan melalui


AI dan Pembelajaran Mesin di Databricks

Artikel ini menjelaskan alat yang disediakan Azure Databricks untuk membantu Anda membangun dan memantau alur kerja AI dan ML. Diagram menunjukkan bagaimana komponen-komponen ini bekerja sama untuk membantu Anda menerapkan proses pengembangan dan penyebaran model Anda.

Diagram pembelajaran mesin: Pengembangan dan penyebaran model pada Databricks

Mengapa menggunakan Databricks untuk pembelajaran mesin dan pembelajaran mendalam?

Dengan Databricks, satu platform melayani setiap langkah proses pengembangan dan penyebaran model, dari data mentah hingga tabel inferensi yang menyimpan setiap permintaan dan respons untuk model yang dilayani. Ilmuwan data, insinyur data, insinyur ML, dan DevOps dapat melakukan pekerjaan mereka menggunakan serangkaian alat yang sama dan satu sumber kebenaran untuk data.

Dengan platform kecerdasan data, platform ML dan tumpukan data adalah sistem yang sama. Platform ML dibangun di atas lapisan data. Semua aset dan artefak data, seperti model dan fungsi, dapat ditemukan dan diatur dalam satu katalog. Menggunakan satu platform untuk data dan model memungkinkan untuk melacak silsilah data mentah ke model produksi. Pemantauan data dan model bawaan menghemat metrik berkualitas ke tabel yang juga disimpan di platform, sehingga lebih mudah untuk mengidentifikasi akar penyebab masalah performa model. Untuk informasi selengkapnya tentang bagaimana Databricks mendukung siklus hidup ML lengkap dan MLOps, lihat alur kerja MLOps di Azure Databricks dan Apa itu MLOps Stacks?.

Beberapa komponen utama platform kecerdasan data adalah:

Tugas Komponen
Mengatur dan mengelola data, fitur, model, dan fungsi. Juga penemuan, penerapan versi, dan silsilah data. Katalog Unity
Melacak perubahan pada data, kualitas data, dan kualitas prediksi model Pemantauan Lakehouse, Tabel inferensi
Pengembangan dan manajemen fitur Rekayasa fitur
Latih model Databricks AutoML, notebook Databricks
Lacak pengembangan model Pelacakan MLflow
Melayani model kustom Model AI mosaik melayani.
Menyebarkan LLM API Model Fondasi, Model eksternal
Membangun alur kerja otomatis dan alur ETL siap produksi Alur Kerja Databricks
Integrasi Git Folder Databricks Git

Pembelajaran mendalam tentang Databricks

Mengonfigurasi infrastruktur untuk aplikasi pembelajaran mendalam bisa sulit.

Databricks Runtime for Pembelajaran Mesin mengurusnya untuk Anda, dengan kluster yang memiliki versi kompatibel bawaan dari pustaka pembelajaran mendalam yang paling umum seperti TensorFlow, PyTorch, dan Keras, dan pustaka pendukung seperti Petastorm, Hyperopt, dan Horovod. Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Ini juga mendukung pustaka seperti Ray untuk menyejajarkan pemrosesan komputasi untuk menskalakan alur kerja ML dan aplikasi AI.

Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Mosaic AI Model Serving memungkinkan pembuatan titik akhir GPU yang dapat diskalakan untuk model pembelajaran mendalam tanpa konfigurasi tambahan.

Untuk aplikasi pembelajaran mesin, Databricks merekomendasikan penggunaan kluster yang menjalankan Databricks Runtime untuk Pembelajaran Mesin. Lihat Membuat kluster menggunakan Databricks Runtime ML.

Untuk memulai pembelajaran mendalam tentang Databricks, lihat:

Model bahasa besar (LLM) dan AI generatif pada Databricks

Databricks Runtime for Pembelajaran Mesin mencakup pustaka seperti Hugging Face Transformers dan LangChain yang memungkinkan Anda mengintegrasikan model yang sudah dilatih sebelumnya atau pustaka sumber terbuka lainnya ke dalam alur kerja Anda. Integrasi Databricks MLflow memudahkan penggunaan layanan pelacakan MLflow dengan alur transformator, model, dan komponen pemrosesan. Selain itu, Anda dapat mengintegrasikan model atau solusi OpenAI dari mitra seperti John Snow Labs di alur kerja Azure Databricks Anda.

Dengan Azure Databricks, Anda dapat menyesuaikan LLM pada data Anda untuk tugas spesifik Anda. Dengan dukungan alat sumber terbuka, seperti Hugging Face dan DeepSpeed, Anda dapat secara efisien mengambil LLM fondasi dan melatihnya dengan data Anda sendiri untuk meningkatkan akurasinya untuk domain dan beban kerja spesifik Anda. Anda kemudian dapat memanfaatkan LLM kustom di aplikasi AI generatif Anda.

Selain itu, Databricks menyediakan API Model Foundation dan model eksternal yang memungkinkan Anda mengakses dan mengkueri model terbuka state-of-the-art dari titik akhir penyajian. Dengan menggunakan API Model Foundation, pengembang dapat dengan cepat dan mudah membangun aplikasi yang memanfaatkan model AI generatif berkualitas tinggi tanpa mempertahankan penyebaran model mereka sendiri.

Untuk pengguna SQL, Databricks menyediakan fungsi AI yang dapat digunakan analis data SQL untuk mengakses model LLM, termasuk dari OpenAI, langsung dalam alur data dan alur kerja mereka. Lihat Fungsi AI di Azure Databricks.

Runtime Databricks untuk Pembelajaran Mesin

Databricks Runtime for Pembelajaran Mesin (Databricks Runtime ML) mengotomatiskan pembuatan kluster dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum. Untuk daftar lengkap pustaka di setiap versi Databricks Runtime ML, lihat catatan rilis.

Untuk mengakses data di Unity Catalog untuk alur kerja pembelajaran mesin, mode akses untuk kluster harus pengguna tunggal (ditetapkan). Kluster bersama tidak kompatibel dengan Databricks Runtime untuk Pembelajaran Mesin. Selain itu, Databricks Runtime ML tidak didukung pada kluster atau kluster TableACLs dengan spark.databricks.pyspark.enableProcessIsolation config diatur ke true.

Membuat kluster menggunakan Databricks Runtime ML

Saat Anda membuat kluster, pilih versi ML Runtime Databricks dari menu drop-down versi runtime Databricks. Baik runtime bahasa umum ML yang dan CPU maupun GUP, keduanya tersedia.

Memilih ML Runtime Databricks

Jika Anda memilih kluster dari menu drop-down di notebook, versi Databricks Runtime muncul di sebelah kanan nama kluster:

Menampilkan versi ML Runtime Databricks

Jika Anda memilih runtime ML dengan dukungan GPU, Anda akan diminta untuk memilih jenis Driver dan jenis Pekerja yang kompatibel. Jenis instans yang tidak kompatibel berwarna abu-abu di menu drop-down. Jenis instans berkemampuan GPU tercantum di bawah label yang dipercepat GPU.

Catatan

Untuk mengakses data di Unity Catalog untuk alur kerja pembelajaran mesin, mode akses untuk kluster harus pengguna tunggal (ditetapkan). Kluster bersama tidak kompatibel dengan Databricks Runtime untuk Pembelajaran Mesin. Untuk detail tentang cara membuat kluster, lihat Referensi konfigurasi komputasi.

ML Runtime Foton dan Databricks

Saat Anda membuat kluster CPU yang menjalankan Databricks Runtime 15.2 ML atau lebih tinggi, Anda dapat memilih untuk mengaktifkan Photon. Photon meningkatkan performa untuk aplikasi menggunakan Spark SQL, Spark DataFrames, rekayasa fitur, GraphFrames, dan xgboost4j. Hal ini tidak diharapkan untuk meningkatkan performa pada aplikasi menggunakan Spark RDD, Pandas UDF, dan bahasa non-JVM seperti Python. Dengan demikian, paket Python seperti XGBoost, PyTorch, dan TensorFlow tidak akan melihat peningkatan dengan Photon.

API Spark RDD dan Spark MLlib memiliki kompatibilitas terbatas dengan Photon. Saat memproses himpunan data besar menggunakan Spark RDD atau Spark MLlib, Anda mungkin mengalami masalah memori Spark. Lihat Masalah memori Spark.

Pustaka yang termasuk dalam Runtime Bahasa Umum Databricks ML

Databricks Runtime ML mencakup berbagai pustaka ML populer. Pustaka diperbarui dengan setiap rilis untuk menyertakan fitur dan perbaikan baru.

Databricks telah menetapkan subset pustaka yang didukung sebagai pustaka tingkat atas. Untuk pustaka ini, Databricks menyediakan irama pembaruan yang lebih cepat, memperbarui ke rilis paket terbaru dengan setiap rilis runtime (konflik dependensi yang menghambat). Databricks juga menyediakan dukungan tingkat lanjut, pengujian, dan pengoptimalan yang disematkan untuk pustaka tingkat atas.

Untuk daftar lengkap pustaka tingkat atas dan pustaka lain yang disediakan, lihat catatan rilis untuk Databricks Runtime ML.

Langkah berikutnya

Untuk memulai, lihat:

Untuk alur kerja MLOps yang direkomendasikan di databricks Pembelajaran Mesin, lihat:

Untuk mempelajari tentang fitur Pembelajaran Mesin Databricks utama, lihat: