AI dan pembelajaran mesin di Databricks
Artikel ini menjelaskan alat yang disediakan Mosaic AI (sebelumnya Databricks Pembelajaran Mesin) untuk membantu Anda membangun sistem AI dan ML. Diagram menunjukkan bagaimana berbagai produk di platform Databricks membantu Anda menerapkan alur kerja end to end Anda untuk membangun dan menyebarkan sistem AI dan ML
AI Generatif pada Databricks
Mosaic AI menyatukan siklus hidup AI dari pengumpulan dan persiapan data, hingga pengembangan model dan LLMOps, untuk melayani dan memantau. Fitur-fitur berikut secara khusus dioptimalkan untuk memfasilitasi pengembangan aplikasi AI generatif:
- Unity Catalog untuk tata kelola, penemuan, penerapan versi, dan kontrol akses untuk data, fitur, model, dan fungsi.
- MLflow untuk pelacakan pengembangan model.
- Model AI Mosaik Berfungsi untuk menyebarkan LLM. Anda dapat mengonfigurasi model yang melayani titik akhir khusus untuk mengakses model AI generatif:
- LLM terbuka state-of-the-art menggunakan API Model Foundation.
- Model pihak ketiga yang dihosting di luar Databricks. Lihat Model eksternal di Mosaic AI Model Serving.
- Mosaic AI Vector Search menyediakan database vektor yang dapat dikueri yang menyimpan vektor penyematan dan dapat dikonfigurasi untuk disinkronkan secara otomatis ke basis pengetahuan Anda.
- Pemantauan Lakehouse untuk pemantauan data dan pelacakan kualitas prediksi model dan penyimpangan menggunakan pengelogan payload otomatis dengan tabel inferensi.
- AI Playground untuk menguji model AI generatif dari ruang kerja Databricks Anda. Anda dapat meminta, membandingkan, dan menyesuaikan pengaturan seperti parameter perintah sistem dan inferensi.
- Pelatihan Model AI Mosaik (sebelumnya Pelatihan Model Foundation) untuk menyesuaikan model fondasi menggunakan data Anda sendiri untuk mengoptimalkan performanya untuk aplikasi spesifik Anda.
- Mosaic AI Agent Framework untuk membangun dan menyebarkan agen berkualitas produksi seperti aplikasi Retrieval Augmented Generation (RAG).
- Evaluasi Agen AI Mosaik untuk mengevaluasi kualitas, biaya, dan latensi aplikasi AI generatif, termasuk aplikasi dan rantai RAG.
Apa itu AI generatif?
AI generatif adalah jenis kecerdasan buatan yang berfokus pada kemampuan komputer untuk menggunakan model untuk membuat konten seperti gambar, teks, kode, dan data sintetis.
Aplikasi AI generatif dibangun di atas model AI generatif: model bahasa besar (LLM) dan model fondasi.
- LLM adalah model pembelajaran mendalam yang mengonsumsi dan melatih himpunan data besar untuk unggul dalam tugas pemrosesan bahasa. Mereka membuat kombinasi teks baru yang meniluki bahasa alami berdasarkan data pelatihan mereka.
- Model AI generatif atau model fondasi adalah model ML besar yang telah dilatih sebelumnya dengan niat bahwa model tersebut akan disempurnakan untuk pemahaman bahasa dan tugas pembuatan yang lebih spesifik. Model ini digunakan untuk membedakan pola dalam data input.
Setelah model-model ini menyelesaikan proses pembelajaran mereka, bersama-sama mereka menghasilkan output yang mungkin secara statistik ketika diminta dan mereka dapat digunakan untuk menyelesaikan berbagai tugas, termasuk:
- Pembuatan gambar berdasarkan yang sudah ada atau menggunakan gaya satu gambar untuk memodifikasi atau membuat gambar baru.
- Tugas ucapan seperti transkripsi, terjemahan, pembuatan pertanyaan/jawaban, dan interpretasi niat atau arti teks.
Penting
Meskipun banyak LLM atau model AI generatif lainnya memiliki perlindungan, mereka masih dapat menghasilkan informasi yang berbahaya atau tidak akurat.
AI generatif memiliki pola desain berikut:
- Prompt Engineering: Membuat perintah khusus untuk memandu perilaku LLM
- Pengambilan Augmented Generation (RAG): Menggabungkan LLM dengan pengambilan pengetahuan eksternal
- Penyempurnaan: Mengadaptasi LLM yang telah dilatih sebelumnya ke himpunan data domain tertentu
- Pra-pelatihan: Melatih LLM dari awal
Pembelajaran mesin di Databricks
Dengan Mosaic AI, satu platform melayani setiap langkah pengembangan dan penyebaran ML, dari data mentah hingga tabel inferensi yang menyimpan setiap permintaan dan respons untuk model yang dilayani. Ilmuwan data, insinyur data, insinyur ML, dan DevOps dapat melakukan pekerjaan mereka menggunakan serangkaian alat yang sama dan satu sumber kebenaran untuk data.
Mosaic AI menyaingkan lapisan data dan platform ML. Semua aset dan artefak data, seperti model dan fungsi, dapat ditemukan dan diatur dalam satu katalog. Menggunakan satu platform untuk data dan model memungkinkan untuk melacak silsilah data mentah ke model produksi. Pemantauan data dan model bawaan menghemat metrik berkualitas ke tabel yang juga disimpan di platform, sehingga lebih mudah untuk mengidentifikasi akar penyebab masalah performa model. Untuk informasi selengkapnya tentang bagaimana Databricks mendukung siklus hidup ML lengkap dan MLOps, lihat alur kerja MLOps di Azure Databricks dan MLOps Stacks: proses pengembangan model sebagai kode.
Beberapa komponen utama platform kecerdasan data adalah:
Tugas | Komponen |
---|---|
Mengatur dan mengelola data, fitur, model, dan fungsi. Juga penemuan, penerapan versi, dan silsilah data. | Katalog Unity |
Melacak perubahan pada data, kualitas data, dan kualitas prediksi model | Pemantauan Lakehouse, Tabel inferensi |
Pengembangan dan manajemen fitur | Rekayasa dan penyajian fitur. |
Latih model | Mosaic AutoML, buku catatan Databricks |
Lacak pengembangan model | Pelacakan MLflow |
Melayani model kustom | Model AI mosaik melayani. |
Membangun alur kerja otomatis dan alur ETL siap produksi | Pekerjaan Databricks |
Integrasi Git | Folder Databricks Git |
Pembelajaran mendalam tentang Databricks
Mengonfigurasi infrastruktur untuk aplikasi pembelajaran mendalam bisa sulit. Databricks Runtime for Pembelajaran Mesin mengurusnya untuk Anda, dengan kluster yang memiliki versi kompatibel bawaan dari pustaka pembelajaran mendalam yang paling umum seperti TensorFlow, PyTorch, dan Keras.
Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Ini juga mendukung pustaka seperti Ray untuk menyejajarkan pemrosesan komputasi untuk menskalakan alur kerja ML dan aplikasi ML.
Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Mosaic AI Model Serving memungkinkan pembuatan titik akhir GPU yang dapat diskalakan untuk model pembelajaran mendalam tanpa konfigurasi tambahan.
Untuk aplikasi pembelajaran mesin, Databricks merekomendasikan penggunaan kluster yang menjalankan Databricks Runtime untuk Pembelajaran Mesin. Lihat Membuat kluster menggunakan Databricks Runtime ML.
Untuk memulai pembelajaran mendalam tentang Databricks, lihat:
- Praktik terbaik untuk pembelajaran mendalam di Azure Databricks
- Pembelajaran mendalam tentang Databricks
- Solusi referensi untuk pembelajaran mendalam
Langkah berikutnya
Untuk memulai, lihat:
Untuk alur kerja MLOps yang direkomendasikan di Databricks Mosaic AI, lihat:
Untuk mempelajari tentang fitur kunci Databricks Mosaic AI, lihat: