Konsep: AI Generatif di Azure Databricks

Aplikasi GenAI adalah aplikasi yang menggunakan model AI generatif (seperti model bahasa besar, model pembuatan gambar, dan model teks ke ucapan) untuk membuat output baru, mengotomatiskan tugas kompleks, atau terlibat dalam interaksi cerdas berdasarkan input pengguna.

Aplikasi GenAI dapat didukung oleh panggilan sederhana ke LLM atau model GenAI lainnya, atau oleh agen AI yang kompleks. Baca selengkapnya tentang tingkat kompleksitas.

Agen, alat, evaluasi, model, dan aspek lain dari aplikasi GenAI dapat disesuaikan dengan data kepemilikan pribadi Anda. Penyesuaian berbasis data ini mengarah pada kecerdasan data, memungkinkan Anda melampaui kecerdasan umum yang ditawarkan oleh model AI kalengan.

Aplikasi GenAI

Aplikasi GenAI yang menghadap pengguna dapat mengambil banyak formulir, seperti:

Keberhasilan dengan aplikasi GenAI sering membutuhkan dua set keterampilan: pengembangan aplikasi dan evaluasi AI. Pengembangan aplikasi GenAI mirip dengan mengembangkan aplikasi non-AI, membutuhkan keterampilan perangkat lunak yang bergantung pada jenis aplikasi. Namun, evaluasi untuk aplikasi GenAI memerlukan alat dan teknik khusus untuk menangani kompleksitas dan respons terbuka dari GenAI.

Untuk mempelajari tentang membangun aplikasi GenAI khusus industri di Azure Databricks, lihat:

Evaluasi GenAI

Model, agen, dan aplikasi GenAI sering memiliki perilaku yang kompleks dan terbuka. Pengguna dapat diizinkan untuk memasukkan kueri apa pun. Agen AI dapat diizinkan untuk mengumpulkan teks, gambar, dan lainnya selama eksekusi. Outputnya bisa berupa teks, gambar, atau media lain yang semena-mena, dan mungkin ada banyak jawaban "baik".

Komplikasi ini membuatnya menantang untuk mengevaluasi GenAI. Evaluasi yang tepat memerlukan:

  • Otomatisasi menggunakan AI untuk mengevaluasi AI
  • Umpan balik manusia dari para ahli dan pengguna untuk mengumpulkan kebenaran dasar dan mengkalibrasi evaluasi otomatis
  • Mendalami agen kompleks untuk memahami dan men-debug perilaku

MLflow yang dikelola Azure Databricks dan alat terkait menyediakan fondasi untuk evaluasi GenAI:

Agents

Sistem agen atau agen adalah sistem berbasis AI yang dapat secara otonom dapat menilai, memutuskan, dan bertindak dalam lingkungan untuk mencapai tujuan. Tidak seperti model GenAI mandiri yang hanya menghasilkan output ketika diminta, sistem agen memiliki tingkat agensi. Agen AI modern menggunakan model GenAI sebagai "otak" dari sistem yang:

  1. Menerima permintaan pengguna atau pesan dari agen lain.
  2. Alasan tentang cara melanjutkan: data mana yang akan diambil, logika mana yang akan diterapkan, alat mana yang akan dipanggil, atau apakah akan meminta lebih banyak input dari pengguna.
  3. Menjalankan sebuah rencana dan mungkin memanggil beberapa alat atau mendelegasikan ke sub-agen.
  4. Mengembalikan jawaban atau meminta klarifikasi tambahan kepada pengguna.

Dengan menjembatani kecerdasan umum (kemampuan terlatih model GenAI) dan kecerdasan data (pengetahuan dan API yang khusus untuk bisnis Anda), sistem agen memungkinkan kasus penggunaan berdampak tinggi untuk perusahaan seperti alur layanan pelanggan yang canggih, bot analitik kaya data, dan orkestrasi multi-agen untuk tugas operasional yang kompleks.

Ada kontinum dari model GenAI sederhana ke agen yang kompleks. Untuk mempelajari lebih lanjut, lihat Pola desain sistem agen.

Azure Databricks menyediakan berbagai opsi untuk membangun agen, dari yang sepenuhnya dipandu hingga sepenuhnya kustom:

  • AI Playground menyediakan UI untuk membuat prototipe agen panggilan alat, tempat Anda dapat mengekspor kode agen yang dihasilkan.
  • Agen kustom memungkinkan Anda membangun dan menyebarkan agen menggunakan kode kustom atau pustaka penulisan agen pihak ketiga.

Alat

Agen AI dapat memanggil alat untuk mengumpulkan informasi atau melakukan tindakan. Perangkat adalah fungsi yang berinteraksi tunggal yang dapat dipanggil oleh LLM untuk menyelesaikan tugas yang terdefinisi dengan baik. Model AI biasanya menghasilkan parameter untuk setiap panggilan alat, dan alat ini menyediakan interaksi input-output yang mudah.

Kategori alat umum meliputi:

  • Alat yang mengambil atau menganalisis data
    • Pengambilan semantik: Mengkueri indeks vektor untuk menemukan teks yang relevan atau data tidak terstruktur lainnya.
    • Pengambilan terstruktur: Jalankan kueri SQL atau gunakan API untuk mengambil informasi terstruktur.
    • Alat pencarian web: Cari internet atau korpus web internal.
    • Model ML klasik: Memanggil model pembelajaran mesin untuk melakukan klasifikasi, regresi, atau prediksi lainnya.
    • Model GenAI: Menghasilkan output khusus seperti kode atau gambar.
  • Tools yang memodifikasi status sistem eksternal
    • Panggilan API: Memanggil titik akhir CRM, layanan internal, atau integrasi pihak ketiga lainnya.
    • Integrasi aplikasi email atau pesan: Posting pesan atau kirim pemberitahuan.
  • Alat yang menjalankan logika atau melakukan tugas tertentu
    • Eksekusi kode: Jalankan kode yang disediakan pengguna atau yang dihasilkan LLM di kotak pasir.

Alat dapat dibangun ke dalam logika agenik atau diakses menggunakan antarmuka standar seperti MCP.

Alat vs. agen:

  • Alat melakukan operasi tunggal yang terdefinisi dengan baik. Agen dapat melakukan lebih banyak tugas terbuka.
  • Alat umumnya stateless dan tidak mempertahankan konteks yang berlanjut di luar setiap pemanggilan. Agen mempertahankan status saat mereka secara berulang menyelesaikan tugas.

Penanganan kesalahan alat dan keamanan:

Karena setiap panggilan alat adalah operasi eksternal seperti panggilan API, sistem harus menangani kegagalan dengan baik. Waktu habis, respons cacat, atau input yang tidak valid seharusnya tidak menyebabkan agen itu sendiri gagal sepenuhnya. Dalam produksi, batasi jumlah panggilan alat yang diizinkan, siapkan respons cadangan jika panggilan alat gagal, dan terapkan kontrol untuk memastikan sistem agen tidak berulang kali mencoba tindakan yang sama yang gagal.

Pelajari selengkapnya tentang alat AI di Databricks:

Model GenAI dan LLM

Model Bahasa Besar (LLM) adalah model AI yang dilatih pada himpunan data teks besar-besaran yang dapat memahami, menghasilkan, dan alasan tentang bahasa manusia. LLM mendukung aplikasi seperti chatbot, asisten kode, dan alat pembuatan konten dengan memprediksi dan menghasilkan teks yang relevan secara kontekstual berdasarkan perintah input.

Secara umum, model GenAI atau model fondasi dilatih pada teks, gambar, video, audio, atau data besar-besaran lainnya untuk mempelajari tentang mode di luar teks. Model multi-modal belajar menyatukan bahasa manusia dengan gambar, audio, dan media lainnya. LLM adalah jenis model dasar GenAI, meskipun istilah-istilah ini sering digunakan secara longgar dan saling menggantikan.

Model GenAI menyediakan kecerdasan di balik agen dan aplikasi GenAI. Aplikasi sederhana sering dibuat menggunakan model tunggal yang disesuaikan dengan rekayasa yang cepat.

Pelajari tentang menggunakan model GenAI di Azure Databricks:

Rekayasa pemicu

Model GenAI umumnya mengambil perintah, atau instruksi yang memberi tahu model cara menangani input pengguna. Perintah dapat disesuaikan secara khusus dengan langkah terperinci, pengetahuan dari para ahli, data, dan informasi lainnya.

Azure Databricks menyediakan cara fleksibel untuk melakukan prompt engineering. Contohnya:

  • Asisten Pengetahuan mengotomatiskan rekayasa petunjuk di balik layar, berdasarkan data dan umpan balik Anda.

Menyempurnakan model

Model GenAI juga dapat disesuaikan melalui penyempurnaan, yang menyesuaikan model untuk domain atau aplikasi tertentu menggunakan data kustom Anda.

Azure Databricks menyediakan cara fleksibel untuk menyempurnakan model. Contohnya:

  • Asisten Pengetahuan mengotomatiskan kustomisasi berbasis data, dengan potensi untuk melakukan penyempurnaan secara internal.
  • Runtime AI menyediakan infrastruktur komputasi untuk penyempurnaan yang sepenuhnya dapat disesuaikan. Lihat contoh.

Apa itu platform GenAI?

GenAI memerlukan platform gabungan data + AI. Untuk pengembang dan administrator, komponen utama untuk GenAI harus terhubung dan diatur dalam platform terpadu yang sederhana.

Komponen utama meliputi:

  • Aset AI seperti model, agen, dan aplikasi
  • Aset data seperti file, tabel, alur pemrosesan, indeks vektor, dan penyimpanan fitur
  • Penyebaran AI seperti titik akhir untuk model dan agen
  • Alat untuk membangun dan menyebarkan AI dan aset data

Kemampuan tata kelola utama meliputi:

Lihat juga kemampuan AI generatif Azure Databricks dan arsitektur Databricks.

Kecerdasan umum vs. kecerdasan data

Diagram membandingkan kecerdasan umum vs. kecerdasan data.

  • Kecerdasan umum mengacu pada apa yang secara inheren LLM ketahui dari pralatih luas pada teks yang beragam. Ini berguna untuk kefasihan bahasa dan penalaran umum.
  • Data Intelligence mengacu pada data dan API khusus domain organisasi Anda. Ini mungkin termasuk catatan pelanggan, informasi produk, pangkalan pengetahuan, atau dokumen yang mencerminkan lingkungan bisnis unik Anda.

Sistem agen memadukan kedua sumber pengetahuan ini: Mereka mulai dengan pengetahuan umum LLM yang luas dan kemudian membawa data real time atau khusus domain untuk menjawab pertanyaan terperinci atau melakukan tindakan khusus. Dengan Azure Databricks, Anda dapat menyematkan kecerdasan data ke dalam aplikasi GenAI Anda di setiap tingkat:

GenAI vs. ML vs. pembelajaran mendalam

Batas-batas antara kecerdasan buatan generatif (GenAI), pembelajaran mesin (ML), dan pembelajaran mendalam (DL) bisa fuzzy. Panduan ini berfokus pada GenAI, tetapi fitur platform Databricks berikut mendukung ML, pembelajaran mendalam, dan GenAI:

  • Runtime AI dan Runtime Databricks dengan dukungan GPU untuk Pembelajaran Mesin dapat digunakan untuk melatih dan menyempurnakan model ML, pembelajaran mendalam, dan GenAI.

Pelajari lebih lanjut