Siklus hidup pengembangan agen

Panduan ini menyediakan titik awal untuk memahami siklus hidup penuh membangun aplikasi AI atau agen AI. Sepanjang panduan ini, "agen AI" adalah istilah umum untuk sistem yang didukung oleh teknologi GenAI, termasuk panggilan LLM sederhana, fungsi AI, dan implementasi berbasis agen.

Gambaran umum siklus hidup pengembangan

  1. Memahami metrik kasus penggunaan, cakupan, dan keberhasilan
  2. Membangun agen AI awal
  3. Melakukan iterasi terhadap kualitas agen AI
  4. Menyelaraskan dengan pemangku kepentingan sebelum produksi
  5. Rilis ke produksi dan terus memantau kualitas

1. Memahami metrik kasus penggunaan, cakupan, dan keberhasilan

Sebelum membangun apa pun, klarifikasi apa yang dimaksudkan agen AI untuk dilakukan. Selaras dengan pemangku kepentingan, termasuk orang-orang yang akan memberikan persetujuan untuk penerapan ke lingkungan produksi.

  • Jenis input apa yang akan ditangani agen ("domain" atau "cakupan")? Pengguna apa yang akan mengirimkan input?
  • Bagaimana sebaiknya agen merespons input umum secara ideal? Informasi atau konteks apa yang harus digunakan?
  • Kriteria apa yang menentukan respons yang baik atau buruk: nada, akurasi, kelengkapan, panjang respons, keamanan, kutipan, atau persyaratan lainnya?
  • Persyaratan dan batasan sistem apa yang ada dalam produksi: biaya, latensi, dan skalabilitas?
  • Apa yang dimaksud dengan mode kegagalan potensial, dan bagaimana agen harus menanganinya: input pengguna yang buruk, informasi yang tidak cukup untuk dijawab, umpan balik pengguna yang menunjukkan jawaban yang buruk, atau lainnya?

Pilih pendekatan yang paling sederhana dan layak. Banyak kasus penggunaan tidak memerlukan sistem agenik atau multi-agen yang kompleks. Sebelum membangun, tentukan di mana posisi masalah Anda pada spektrum kompleksitas. Apakah logika deterministik sederhana atau fungsi AI batch sudah cukup? Jika diperlukan panggilan alat, penalaran, atau koordinasi dinamis, pertimbangkan agen panggilan alat atau sistem multi-agen. Untuk panduan yang lebih mendalam, lihat pola desain sistem Agen.

Fondasi ini memungkinkan Anda untuk:

  1. Mengidentifikasi sumber data dan alat yang dibutuhkan agen Anda
  2. Tulis instruksi awal atau perintah yang mencerminkan perilaku yang dimaksudkan
  3. Mengidentifikasi pakar domain atau penguji yang dapat memberikan contoh perwakilan dan umpan balik awal
  4. Membuat hakim otomatis yang mengodekan kriteria penilaian dan mempercepat iterasi

Anda tidak memerlukan kejelasan sempurna pada tahap ini, dan pemahaman Anda akan meningkat saat Anda melakukan iterasi. Tetapi keselarasan awal yang lebih kuat, terutama mengenai cara pengukuran kualitas dan arti dari "siap produksi", membuat peningkatan kualitas dan persetujuan akhir menjadi lebih cepat secara signifikan.

2. Bangun agen AI awal

Setelah kasus penggunaan dan tujuan Anda terdefinisi dengan baik, Anda siap untuk membuat prototipe agen AI Anda. Databricks menyediakan rute berbasis UI terpandu dan rute berbasis kode yang sepenuhnya kustom untuk membangun agen AI.

2.1. Menyiapkan data dan alat

Agen AI umumnya menggunakan data dan alat untuk memberikan konteks dan kemampuan. Lihat Alat agen AI untuk gambaran umum bekerja dengan data dan alat di Databricks.

Cari data dan alat yang sudah ada sebelum membuat data dan alat baru:

  • Jelajahi data yang tersedia di Unity Catalog atau pencarian ruang kerja untuk memahami aset yang diatur yang sudah ada. Ini membantu Anda memahami konteks dan kemampuan apa yang tersedia sebelum membuat aset baru.
  • Di AI Playground, Anda dapat melihat dan memilih alat yang sudah tersedia untuk agen, seperti indeks Pencarian Vektor, server MCP, atau Fungsi UC.

Buat dan kelola aset baru sesuai kebutuhan:

Semua aset dan alat data ini diatur dan dibuat versinya di Unity Catalog, membuatnya dapat ditemukan dan digunakan kembali di seluruh agen dan aplikasi AI.

2.2. Membangun agen pertama

Sebelum membangun agen kustom, nilai apakah agen Asisten Pengetahuan deklaratif, fungsi AI, atau akselerator solusi Databricks yang ada sudah cocok dengan kasus penggunaan Anda. Untuk pola umum, pendekatan terpandu ini dapat secara signifikan mengurangi penyiapan, meningkatkan kualitas default, dan mempercepat waktu menuju produksi.

Jika agen kustom masih diperlukan, pengembang baru harus memulai dengan metode paling cepat untuk bereksperimen. Gunakan AI Playground untuk membuat prototipe agen tanpa menulis kode. AI Playground memungkinkan Anda untuk mencoba model yang berbeda, melakukan rekayasa yang cepat, dan alat pengujian untuk memahami kualitas data, perilaku agen, dan potensi pendekatan Anda dengan cepat. Anda kemudian dapat mengekspor agen sebagai kode untuk penyesuaian dan iterasi lebih lanjut.

Jika Anda sudah memiliki kode agen, Anda dapat membawa kode yang ada ke Dalam Databricks dan menyebarkannya sebagai Aplikasi Databricks.

Saat Anda membangun agen, rencanakan sebelumnya untuk evaluasi dan produksi:

  • Instrumen agen Anda dengan MLflow Tracing untuk merekam dan menganalisis perilaku agen.
    • Pada tahap ini, fokuslah pada kebenaran fungsional: pastikan agen berjalan secara ujung ke ujung dan dapat mengakses data dan alat yang diperlukan.
    • Pemeriksaan awal untuk mendeteksi masalah seperti pemilihan alat yang salah, kurangnya konteks, atau halusinasi.
    • Nantinya, jejak ini akan digunakan untuk mengevaluasi kualitas agen.
  • Selama implementasi, pertimbangkan metode autentikasi yang tepat untuk aplikasi produksi Anda.

3. Meningkatkan kualitas agen AI secara iteratif

Setelah prototipe kerja ada, fase berikutnya adalah siklus ketat mengukur, meningkatkan, dan memahami kualitas. Databricks menempatkan Evaluasi MLflow di pusat perulangan ini, didukung oleh Pelacakan MLflow, himpunan data evaluasi, dan hakim LLM.

Penilaian otomatis dan hakim LLM memberikan skala dan konsistensi, tetapi umpan balik manusia sangat penting untuk memvalidasi kegunaan dunia nyata dan memahami kegagalan halus. Umpan balik manusia juga memandu pengembangan dan kalibrasi juri LLM. Umpan balik manusia biasanya masuk dalam tiga tahap saat agen matang:

  1. Validasi pengembang dan pemangku kepentingan awal
  2. Ulasan pakar domain yang lebih luas
  3. Umpan balik pengguna akhir

3.1. Memvalidasi perilaku awal

Pengembang dan sekelompok kecil pemangku kepentingan atau pakar domain dapat memberikan umpan balik awal yang cepat. Sebelum pengujian dan evaluasi skala, pastikan agen melakukan hal-hal yang tepat dalam situasi yang paling jelas.

Selama pembuatan prototipe, pengembang sering melakukan "pengecekan nuansa" secara informal dengan mengkueri agen secara manual untuk mengonfirmasinya berfungsi secara menyeluruh dan berperilaku seperti yang diharapkan. Dengan MLflow Tracing UI, pengembang dapat melampirkan umpan balik atau ekspektasi langsung ke jejak untuk menandai masalah kualitas, menandai contoh yang berhasil, dan menangkap catatan untuk evaluasi dan iterasi di masa mendatang.

Setelah Anda menyebarkan prototipe internal, Review App Chat UI menyediakan antarmuka yang sederhana untuk mengumpulkan umpan balik. Bagikan UI Chat tersebut untuk prototipe Anda dengan sekelompok kecil pengembang atau pakar domain yang dapat menanyakan pertanyaan atau kueri yang wajar dan bermasalah.

Pelacakan MLflow merekam interaksi dan umpan balik untuk membangun himpunan data awal hasil. Analisis jejak dengan UI atau kode MLflow untuk memahami performa dan perilaku agen. Jika hasil buruk atau tidak terduga, gunakan jejak untuk men-debug:

  • Menganalisis masalah kualitas dalam agen tersebut, seperti penyalahgunaan alat, halusinasi, atau kekurangan konteks. Terapkan perbaikan, seperti penyetelan perintah, penggunaan alat, atau data. Lihat 3.4. Perbaiki masalah dan verifikasi ulang penyempurnaan.
  • Saat melakukan iterasi, Anda dapat menggunakan himpunan data pelacakan sebagai input pengguna representatif untuk menghasilkan jejak untuk prototipe baru Anda.
  • Ulangi perulangan ini: jalankan, periksa, perbaiki, dan jalankan kembali, hingga agen menangani semua atau sebagian besar input perwakilan seperti yang diharapkan.
  • Lebih banyak masalah mungkin terungkap dan ditangani dalam iterasi berikutnya. Peningkatan kualitas bersifat berulang dan tidak terbatas pada fase awal ini.

Setelah langkah ini, Anda dapat merasa yakin prototipe berperilaku secara masuk akal dalam kasus umum dan memiliki tingkat kualitas yang wajar, sebelum berinvestasi lebih dalam pengujian yang lebih mendalam.

3.2. Perluas pengujian dan umpan balik

Setelah prototipe berfungsi dalam kasus sederhana, tingkatkan evaluasi kualitas dengan memperluas serangkaian penguji beta Anda dan dengan mengumpulkan lebih banyak umpan balik yang disesuaikan. Fase ini mengungkapkan titik buta seperti topik tak terduga, kueri yang disalahpahami, alat dan celah pengambilan, atau pola penggunaan yang muncul. Ini juga memperluas himpunan data evaluasi Anda.

  • Luncurkan aplikasi ke sekumpulan pemangku kepentingan dan pakar domain yang lebih luas, atau untuk pengguna akhir beta. Gabungkan umpan balik mereka ketika agen terpapar pada pola penggunaan yang lebih luas.
  • Ambil umpan balik dan ekspektasi yang lebih terperinci menggunakan Sesi pelabelan Review App dengan skema kustom untuk umpan balik ahli.
  • Bangun himpunan data evaluasi dengan menyinkronkan umpan balik manusia dan jejak berlabel, bersiap untuk evaluasi dan pemantauan sistematis di langkah berikutnya.
  • Untuk lebih memperkaya himpunan data evaluasi, pertimbangkan untuk menghasilkan kumpulan evaluasi sintetis.

3.3. Mengevaluasi kualitas dan debug secara sistematis

Ketika himpunan data evaluasi Anda menjadi lebih besar dan lebih beragam, Anda akan memerlukan cara terstruktur dan lebih otomatis untuk mendeteksi masalah, memunculkan kegagalan yang paling penting, dan memahami akar penyebabnya.

Dalam praktiknya, Anda kemungkinan akan membagi data Anda menjadi dua jenis himpunan data evaluasi:

  • Pengujian regresi: Data dengan respons AI berkualitas tinggi membantu menentukan perilaku yang diharapkan. Gunakan himpunan data ini untuk memvalidasi bahwa versi baru agen terus berkinerja baik di seluruh serangkaian skenario yang luas dan beragam yang diharapkan.
  • Penelusuran kesalahan yang berfokus pada masalah: Data dengan respons AI berkualitas rendah dapat mencakup berbagai perilaku yang tidak diinginkan. Mengisolasi grup jejak yang menunjukkan jenis perilaku berkualitas rendah yang sama sehingga Anda dapat memahami akar penyebab dan melakukan perbaikan yang ditargetkan.

Alat di bawah ini membantu membangun dan menganalisis kedua jenis himpunan data evaluasi.

Menjalankan pengujian regresi

  • Bangun tes regresi dengan memilih subset data yang representatif di mana Anda memiliki respons AI berkualitas tinggi atau harapan manusia.
  • Tentukan kriteria evaluasi menggunakan hakim dan penilai LLM bawaan atau kustom. Evaluasi otomatis dapat menggunakan LLM saja untuk menilai kualitas respons, atau mereka dapat membandingkan respons terhadap respons atau harapan kebenaran dasar.
  • Jalankan evaluasi pada versi baru agen Anda untuk memastikan pembaruan tidak menurunkan perilaku yang baik sebelumnya.

Mengidentifikasi jenis respons berkualitas rendah

  • Gunakan evaluasi otomatis dan umpan balik manusia untuk melihat contoh di mana agen merespons dengan buruk.
  • Memfilter dan menganalisis jejak MLflow berdasarkan skor hakim atau umpan balik pengguna untuk mengisolasi interaksi yang bermasalah. Dengan hakim tertentu dan skema umpan balik kustom, Anda dapat mengisolasi jenis masalah tertentu, seperti halusinasi, konteks yang hilang, atau respons yang tidak relevan.
  • Untuk penelusuran kesalahan agenik, Anda dapat menggunakan MLflow Wawasan AI atau menghubungkan agen Anda sendiri ke server MLflow MCP.

Meningkatkan akurasi deteksi otomatis

Meskipun Anda dapat mulai membangun himpunan data evaluasi menggunakan sebagian besar umpan balik manusia, Anda dapat menskalakan evaluasi dengan deteksi otomatis. Saat Anda melakukan iterasi, investasikan hakim LLM atau scorer berbasis kode yang disesuaikan dengan aplikasi dan domain Anda.

  • Mulailah dengan hakim bawaan, dan tambahkan hakim kustom dan skorer berbasis kode sesuai kebutuhan. Saat Anda mengamati modus kegagalan yang tidak dideteksi oleh penilai bawaan, Anda dapat mengotomatiskan deteksi di masa mendatang dengan penilai kustom yang dirancang untuk mendeteksi jenis kegagalan tertentu tersebut.
  • Gunakan umpan balik manusia untuk menyelaraskan hakim kustom dengan pemahaman ahli. Menyetel hakim untuk mengurangi positif palsu dan negatif akan meningkatkan kepercayaan pada evaluasi dan triase otomatis.
  • Hakim dan pemeringkat baru Anda dapat digunakan baik untuk evaluasi dan pemantauan otomatis, serta untuk memfilter jejak guna membangun himpunan data untuk penelusuran masalah.

Mengatasi akar penyebab masalah secara efektif

Setelah kegagalan diidentifikasi, Anda perlu menentukan mengapa kegagalan tersebut terjadi.

  • Gunakan Pelacakan MLflow untuk memeriksa setiap langkah penalaran agen secara manual:
    • Alat mana yang dipilih
    • Bagaimana input dan output alat digunakan
    • Apakah pengambilan data mengembalikan konteks yang relevan
    • Bagaimana respons model memengaruhi keputusan hilir
  • Terapkan Wawasan AI MLflow atau agent-as-a-judge untuk menganalisis pelacakan dan menunjuk pada penyebab yang mungkin seperti dasar yang buruk, struktur prompt yang buruk, atau argumen alat yang salah.
  • Bandingkan versi dalam UI evaluasi MLflow untuk melihat apakah masalah muncul kembali atau tetap ada di seluruh perulangan.

Hasil ideal dari langkah ini adalah memiliki pemahaman terstruktur tentang apa yang gagal, mengapa gagal, dan cara memperbaikinya. Otomatisasi dan hakim khusus aplikasi memungkinkan Anda untuk melakukan iterasi dengan percaya diri saat agen Anda tumbuh lebih mampu dan set pengujian tumbuh lebih kompleks.

3.4. Memperbaiki masalah dan memverifikasi ulang penyempurnaan

Sama seperti masalah khusus aplikasi, perbaikan harus disesuaikan dengan aplikasi Anda. Contoh perbaikan umum meliputi:

  • Pengoptimalan perintah: Persingkat instruksi agen secara manual, atau gunakan pengoptimalan prompt berbasis data. Untuk pengoptimalan agen yang lebih luas seperti menyetel penalaran multi-langkah atau penggunaan alat, gunakan penyetelan DSPy.
  • Alat dan data: Tingkatkan alat atau alur pengambilan ketika jejak menunjukkan adanya fakta yang hilang atau dasar yang buruk.
  • Pengarahan: Saat jejak menunjukkan alat atau sub-agen yang salah dipanggil, memperbaiki metadata alat atau agen, petunjuk, atau model pengarahan.
  • Pagar pembatas: Saat respons melanggar aturan keselamatan atau membocorkan informasi, gunakan pagar pembatas Gateway AI atau pagar pembatas yang disesuaikan dalam agen Anda.
  • Fallbacks: Menangani kasus ekstrem, data yang hilang, atau kegagalan panggilan API dengan anggun menggunakan mekanisme fallback seperti poin akhir API alternatif atau respons fallback.

Saat Anda melakukan iterasi pada perbaikan, gunakan Prompt Registry untuk merekam versi untuk perbandingan dan pengujian regresi yang lebih sederhana.

Setiap perbaikan untuk prompt, pengambilan, alat-alat, data, atau bagian lain dari agen Anda harus divalidasi dengan cara yang sama seperti saat ditemukan. Jalankan kembali versi agen baru pada himpunan data evaluasi yang sama untuk mengonfirmasi bahwa masalah diperbaiki dan tidak ada regresi yang telah diperkenalkan.

4. Selaras dengan pemangku kepentingan sebelum produksi

Sebelum merilis agen ke lingkungan nyata, tim memerlukan pemahaman bersama tentang kemampuan, batasan, dan kualitas yang diukur saat ini. Mencapai titik ini biasanya memerlukan beberapa putaran iterasi dan peningkatan kualitas di Langkah 3. Pada tahap ini, terjemahkan sinyal teknis (seperti metrik evaluasi, metrik sistem, dan jejak contoh) ke dalam konteks bisnis yang pada akhirnya menentukan apakah agen benar-benar "siap."

  • Menerjemahkan hasil evaluasi ke dalam sinyal bisnis yang jelas: Merangkum akurasi, stabilitas, keamanan, dan batasan yang diketahui dalam bahasa yang dapat diambil tindakan oleh para pemangku kepentingan.
  • Konfirmasikan pemeriksaan kualitas standar terpenuhi: Pastikan metrik evaluasi yang diperlukan, pemeriksaan regresi, dan ambang batas cakupan himpunan data lulus untuk versi kandidat.
  • Memvalidasi kesiapan operasional dan mendapatkan persetujuan resmi: Tinjau pengaturan pemantauan, pengamanan, dan rencana peluncuran. Risiko dokumen dan kriteria penerimaan sebelum produksi.

5. Rilis ke produksi dan terus memantau kualitas

Mencapai produksi adalah tonggak utama! Ini berarti agen siap untuk pengguna sesungguhnya dan dampak nyata. Pada saat yang sama, produksi juga merupakan awal dari siklus baru. Setelah agen aktif, agen mulai dipantau dan ditingkatkan secara berkelanjutan karena penggunaan sebenarnya akan menampilkan perilaku baru, kasus batas, dan masalah.

  • Kumpulkan umpan balik dari pengguna akhir dalam produksi. Tautkan umpan balik pengguna ke jejak tertentu sehingga dapat dianalisis bersama perilaku model. Anda dapat melakukan ini dengan mencatat umpan balik sebagai penilaian yang dilampirkan ke rekaman asli.
  • Manfaatkan AI Gateway untuk pengamanan, rute, dan pencatatan yang konsisten. Pastikan setiap versi agen baru dapat dievaluasi terhadap lalu lintas nyata tanpa gesekan operasional.
  • Pantau kualitas pada trafik langsung dengan menjalankan evaluasi pada trace produksi yang disampel. Pastikan versi baru beroperasi setidaknya sebaik versi sebelumnya, dan perhatikan adanya masalah baru dikarenakan pengguna mengirimkan jenis kueri baru. Pemantauan berkelanjutan membuat agen tetap andal, aman, dan selaras dengan kebutuhan bisnis saat berkembang. MLflow menyediakan dasbor pemantauan, tetapi karena jejak dapat disimpan di Unity Catalog, Anda dapat menyesuaikan dasbor dan pemberitahuan:
  • Bertindak berdasarkan wawasan produksi:
    • Untuk kasus penggunaan berisiko tinggi, tautkan pemantauan ke mekanisme putar kembali otomatis atau terkontrol untuk memperbaiki masalah kritis.
    • Gunakan wawasan produksi Anda dalam iterasi Anda berikutnya. Konversikan kegagalan dunia nyata menjadi data evaluasi baru, dan kembali ke siklus evaluasi dan debugging untuk mengembangkan versi agen Anda yang lebih baik di masa depan.

Langkah berikutnya