Bagikan melalui


Pengantar Evaluasi Agen AI Mosaik

Penting

Fitur ini ada di Pratinjau Publik.

Artikel ini menjelaskan Evaluasi Agen AI Mosaik. Evaluasi Agen memungkinkan pengembang untuk mengevaluasi kualitas, latensi, dan biaya aplikasi AI generatif dengan cepat dan andal. Kemampuan Evaluasi Agen disatukan di seluruh fase pengembangan, penahapan, dan produksi siklus hidup LLMops, dan semua metrik dan data evaluasi dicatat ke MLflow Runs.

Aplikasi AI generatif kompleks dan melibatkan banyak komponen yang berbeda. Mengevaluasi performa aplikasi ini tidak mudah seperti mengevaluasi performa model ML tradisional. Metrik kualitatif dan kuantitatif yang digunakan untuk mengevaluasi kualitas secara inheren lebih kompleks. Artikel ini memberikan gambaran umum tentang cara bekerja dengan Evaluasi Agen dan menyertakan tautan ke artikel dengan detail selengkapnya.

Membangun kebenaran dasar dengan kumpulan evaluasi

Untuk mengukur kualitas aplikasi AI, Anda perlu menentukan seperti apa respons akurat berkualitas tinggi. Untuk melakukannya, Anda membuat kumpulan evaluasi, yang merupakan serangkaian pertanyaan perwakilan dan jawaban kebenaran dasar, dan secara opsional mendukung dokumen yang Anda harapkan responsnya didasarkan.

Untuk detail tentang set evaluasi, termasuk skema, dependensi metrik, dan praktik terbaik, lihat Set evaluasi.

Menilai performa dengan metrik yang tepat

Mengevaluasi aplikasi AI memerlukan beberapa set metrik, termasuk:

  • Metrik pengambilan, yang mengukur apakah pengambilan mengembalikan potongan yang relevan dengan permintaan input.
  • Metrik respons, yang mengukur apakah respons akurat, konsisten dengan konteks yang diambil, dan relevan dengan permintaan input.
  • Metrik performa, yang mengukur jumlah token di semua panggilan pembuatan LLM dan latensi dalam hitungan detik untuk pelacakan.

Untuk detail tentang metrik dan hakim LLM, lihat Menggunakan metrik agen dan hakim LLM untuk mengevaluasi performa RAG.

Evaluasi berjalan

Untuk detail tentang cara menjalankan evaluasi, lihat Cara menjalankan evaluasi dan melihat hasilnya. Evaluasi Agen mendukung dua opsi untuk memberikan output dari rantai:

  • Anda dapat menjalankan aplikasi GenAI, biasanya rantai atau agen sebagai bagian dari eksekusi evaluasi. Aplikasi menghasilkan hasil untuk setiap input dalam set evaluasi.
  • Anda dapat memberikan output dari eksekusi aplikasi sebelumnya.

Untuk detail dan penjelasan tentang kapan menggunakan setiap opsi, lihat Cara memberikan input ke eksekusi evaluasi.

Mendapatkan umpan balik manusia tentang kualitas aplikasi GenAI

Aplikasi ulasan Databricks memudahkan untuk mengumpulkan umpan balik tentang kualitas aplikasi GenAI dari pengulas manusia. Untuk detailnya, lihat Mendapatkan umpan balik tentang kualitas agen RAG.

Informasi tentang model yang mendukung hakim LLM

  • Hakim LLM mungkin menggunakan layanan pihak ketiga untuk mengevaluasi aplikasi GenAI Anda, termasuk Azure OpenAI yang dioperasikan oleh Microsoft.
  • Untuk Azure OpenAI, Databricks telah memilih keluar dari Pemantauan Penyalahgunaan sehingga tidak ada permintaan atau respons yang disimpan dengan Azure OpenAI.
  • Untuk ruang kerja Uni Eropa (UE), hakim LLM menggunakan model yang dihosting di UE. Semua wilayah lain menggunakan model yang dihosting di AS.
  • Menonaktifkan fitur bantuan AI yang didukung Mitra akan mencegah hakim LLM memanggil model yang didukung mitra.
  • Data yang dikirim ke hakim LLM tidak digunakan untuk pelatihan model apa pun.
  • Hakim LLM dimaksudkan untuk membantu pelanggan mengevaluasi aplikasi RAG mereka, dan output hakim LLM tidak boleh digunakan untuk melatih, meningkatkan, atau menyempurnakan LLM.