Bagikan melalui


AI dan pembelajaran mesin di Databricks

Artikel ini menjelaskan alat yang disediakan Mosaic AI (sebelumnya Databricks Pembelajaran Mesin) untuk membantu Anda membangun sistem AI dan ML. Diagram menunjukkan bagaimana berbagai produk di platform Databricks membantu Anda menerapkan alur kerja end to end Anda untuk membangun dan menyebarkan sistem AI dan ML

Diagram pembelajaran mesin: Pengembangan dan penyebaran model pada Databricks

AI Generatif pada Databricks

Mosaic AI menyatukan siklus hidup AI dari pengumpulan dan persiapan data, hingga pengembangan model dan LLMOps, untuk melayani dan memantau. Fitur-fitur berikut secara khusus dioptimalkan untuk memfasilitasi pengembangan aplikasi AI generatif:

  • Unity Catalog untuk tata kelola, penemuan, penerapan versi, dan kontrol akses untuk data, fitur, model, dan fungsi.
  • MLflow untuk pelacakan pengembangan model.
  • Model AI Mosaik Berfungsi untuk menyebarkan LLM. Anda dapat mengonfigurasi model yang melayani titik akhir khusus untuk mengakses model AI generatif:
  • Mosaic AI Vector Search menyediakan database vektor yang dapat dikueri yang menyimpan vektor penyematan dan dapat dikonfigurasi untuk disinkronkan secara otomatis ke basis pengetahuan Anda.
  • Pemantauan Lakehouse untuk pemantauan data dan pelacakan kualitas prediksi model dan penyimpangan menggunakan pengelogan payload otomatis dengan tabel inferensi.
  • AI Playground untuk menguji model AI generatif dari ruang kerja Databricks Anda. Anda dapat meminta, membandingkan, dan menyesuaikan pengaturan seperti parameter perintah sistem dan inferensi.
  • Pelatihan Model AI Mosaik (sebelumnya Pelatihan Model Foundation) untuk menyesuaikan model fondasi menggunakan data Anda sendiri untuk mengoptimalkan performanya untuk aplikasi spesifik Anda.
  • Mosaic AI Agent Framework untuk membangun dan menyebarkan agen berkualitas produksi seperti aplikasi Retrieval Augmented Generation (RAG).
  • Evaluasi Agen AI Mosaik untuk mengevaluasi kualitas, biaya, dan latensi aplikasi AI generatif, termasuk aplikasi dan rantai RAG.

Apa itu AI generatif?

AI generatif adalah jenis kecerdasan buatan yang berfokus pada kemampuan komputer untuk menggunakan model untuk membuat konten seperti gambar, teks, kode, dan data sintetis.

Aplikasi AI generatif dibangun di atas model AI generatif: model bahasa besar (LLM) dan model fondasi.

  • LLM adalah model pembelajaran mendalam yang mengonsumsi dan melatih himpunan data besar untuk unggul dalam tugas pemrosesan bahasa. Mereka membuat kombinasi teks baru yang meniluki bahasa alami berdasarkan data pelatihan mereka.
  • Model AI generatif atau model fondasi adalah model ML besar yang telah dilatih sebelumnya dengan niat bahwa model tersebut akan disempurnakan untuk pemahaman bahasa dan tugas pembuatan yang lebih spesifik. Model ini digunakan untuk membedakan pola dalam data input.

Setelah model-model ini menyelesaikan proses pembelajaran mereka, bersama-sama mereka menghasilkan output yang mungkin secara statistik ketika diminta dan mereka dapat digunakan untuk menyelesaikan berbagai tugas, termasuk:

  • Pembuatan gambar berdasarkan yang sudah ada atau menggunakan gaya satu gambar untuk memodifikasi atau membuat gambar baru.
  • Tugas ucapan seperti transkripsi, terjemahan, pembuatan pertanyaan/jawaban, dan interpretasi niat atau arti teks.

Penting

Meskipun banyak LLM atau model AI generatif lainnya memiliki perlindungan, mereka masih dapat menghasilkan informasi yang berbahaya atau tidak akurat.

AI generatif memiliki pola desain berikut:

  • Prompt Engineering: Membuat perintah khusus untuk memandu perilaku LLM
  • Pengambilan Augmented Generation (RAG): Menggabungkan LLM dengan pengambilan pengetahuan eksternal
  • Penyempurnaan: Mengadaptasi LLM yang telah dilatih sebelumnya ke himpunan data domain tertentu
  • Pra-pelatihan: Melatih LLM dari awal

Pembelajaran mesin di Databricks

Dengan Mosaic AI, satu platform melayani setiap langkah pengembangan dan penyebaran ML, dari data mentah hingga tabel inferensi yang menyimpan setiap permintaan dan respons untuk model yang dilayani. Ilmuwan data, insinyur data, insinyur ML, dan DevOps dapat melakukan pekerjaan mereka menggunakan serangkaian alat yang sama dan satu sumber kebenaran untuk data.

Mosaic AI menyaingkan lapisan data dan platform ML. Semua aset dan artefak data, seperti model dan fungsi, dapat ditemukan dan diatur dalam satu katalog. Menggunakan satu platform untuk data dan model memungkinkan untuk melacak silsilah data mentah ke model produksi. Pemantauan data dan model bawaan menghemat metrik berkualitas ke tabel yang juga disimpan di platform, sehingga lebih mudah untuk mengidentifikasi akar penyebab masalah performa model. Untuk informasi selengkapnya tentang bagaimana Databricks mendukung siklus hidup ML lengkap dan MLOps, lihat alur kerja MLOps di Azure Databricks dan MLOps Stacks: proses pengembangan model sebagai kode.

Beberapa komponen utama platform kecerdasan data adalah:

Tugas Komponen
Mengatur dan mengelola data, fitur, model, dan fungsi. Juga penemuan, penerapan versi, dan silsilah data. Katalog Unity
Melacak perubahan pada data, kualitas data, dan kualitas prediksi model Pemantauan Lakehouse, Tabel inferensi
Pengembangan dan manajemen fitur Rekayasa dan penyajian fitur.
Latih model Mosaic AutoML, buku catatan Databricks
Lacak pengembangan model Pelacakan MLflow
Melayani model kustom Model AI mosaik melayani.
Membangun alur kerja otomatis dan alur ETL siap produksi Pekerjaan Databricks
Integrasi Git Folder Databricks Git

Pembelajaran mendalam tentang Databricks

Mengonfigurasi infrastruktur untuk aplikasi pembelajaran mendalam bisa sulit. Databricks Runtime for Pembelajaran Mesin mengurusnya untuk Anda, dengan kluster yang memiliki versi kompatibel bawaan dari pustaka pembelajaran mendalam yang paling umum seperti TensorFlow, PyTorch, dan Keras.

Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Ini juga mendukung pustaka seperti Ray untuk menyejajarkan pemrosesan komputasi untuk menskalakan alur kerja ML dan aplikasi ML.

Kluster ML Runtime Databricks juga mencakup dukungan GPU yang telah dikonfigurasi sebelumnya dengan driver dan pustaka pendukung. Mosaic AI Model Serving memungkinkan pembuatan titik akhir GPU yang dapat diskalakan untuk model pembelajaran mendalam tanpa konfigurasi tambahan.

Untuk aplikasi pembelajaran mesin, Databricks merekomendasikan penggunaan kluster yang menjalankan Databricks Runtime untuk Pembelajaran Mesin. Lihat Membuat kluster menggunakan Databricks Runtime ML.

Untuk memulai pembelajaran mendalam tentang Databricks, lihat:

Langkah berikutnya

Untuk memulai, lihat:

Untuk alur kerja MLOps yang direkomendasikan di Databricks Mosaic AI, lihat:

Untuk mempelajari tentang fitur kunci Databricks Mosaic AI, lihat: