Mendapatkan umpan balik tentang kualitas aplikasi agenik
Penting
Fitur ini ada di Pratinjau Publik.
Artikel ini menunjukkan kepada Anda cara menggunakan aplikasi ulasan Databricks untuk mengumpulkan umpan balik tentang kualitas aplikasi agenik Anda dari peninjau manusia.
Evaluasi Agen AI Mosaik memungkinkan pengembang untuk mengevaluasi kualitas, biaya, dan latensi aplikasi AI generatif mereka dengan cepat dan andal. Kemampuan Evaluasi Agen disatukan antara fase pengembangan, penahapan, dan produksi siklus hidup LLMops.
Evaluasi Agen adalah bagian dari penawaran Mosaic AI Agent Framework kami yang dirancang untuk membantu pengembang menyebarkan aplikasi AI generatif berkualitas tinggi. Aplikasi berkualitas tinggi adalah aplikasi di mana output dievaluasi agar akurat, aman, dan diatur.
Apa yang terjadi dalam evaluasi manusia?
Aplikasi ulasan memungkinkan Anda mengumpulkan umpan balik dari pemangku kepentingan ahli anda di aplikasi Anda. Ini membantu memastikan kualitas dan keamanan jawaban yang diberikannya.
Ada tiga cara untuk mengumpulkan umpan balik menggunakan aplikasi ulasan. Pemangku kepentingan ahli:
- Mengobrol dengan bot aplikasi dan memberikan umpan balik tentang percakapan tersebut.
- Berikan umpan balik tentang log historis dari pengguna lain.
- Berikan umpan balik tentang jejak yang dikumpulkan dan output agen.
Di aplikasi ulasan Databricks, LLM ditahapkan di lingkungan di mana pemangku kepentingan ahli dapat berinteraksi dengannya - dengan kata lain, melakukan percakapan, mengajukan pertanyaan, dan sebagainya.
Persyaratan
Untuk menggunakan aplikasi ulasan untuk evaluasi manusia dari aplikasi agenik, Anda harus menyiapkan hal berikut:
- Tabel inferensi harus diaktifkan pada titik akhir yang melayani agen. Ini memungkinkan aplikasi ulasan untuk mengumpulkan dan merekam data tentang aplikasi agenik.
- Akses ke ruang kerja aplikasi ulasan untuk setiap peninjau manusia. Lihat bagian berikutnya, Siapkan tinjau izin aplikasi.
Menyiapkan izin ke ruang kerja aplikasi ulasan
Jika peninjau Anda sudah memiliki akses ke ruang kerja yang berisi aplikasi ulasan, Anda tidak perlu melakukan apa pun.
Jika peninjau belum memiliki akses, admin akun dapat menggunakan provisi SCIM tingkat akun untuk menyinkronkan pengguna dan grup secara otomatis dari penyedia identitas Anda ke akun Azure Databricks Anda. Anda juga dapat mendaftarkan pengguna dan grup ini secara manual saat menyiapkan identitas di Databricks. Ini memungkinkan mereka untuk disertakan sebagai peninjau yang memenuhi syarat. Lihat Menyinkronkan pengguna dan grup dari idP Anda.
from databricks.agents import set_permissions
from databricks.agents.entities import PermissionLevel
set_permissions(model_fqn, ["user.name@databricks.com"], PermissionLevel.CAN_QUERY)
Untuk pelanggan Pratinjau Umum baru yang mengalami kesulitan memberikan akses kepada peninjau ke aplikasi ulasan, hubungi tim akun DB Anda untuk mengaktifkan fitur ini.
Berikan instruksi kepada peninjau
Tulis teks kustom untuk instruksi yang ditampilkan untuk peninjau, dan kirimkan seperti yang ditunjukkan dalam contoh kode berikut:
from databricks.agents import set_review_instructions, get_review_instructions
set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
get_review_instructions(uc_model_name)
Gambaran umum UI aplikasi tinjauan
Alur kerja dasar untuk evaluasi ahli di aplikasi ulasan:
Buka URL aplikasi ulasan yang disediakan.
Tinjau obrolan yang telah diisi sebelumnya.
Mengobrol dengan bot dan mengirimkan evaluasi jawabannya.
Opsi untuk menjalankan evaluasi dengan pemangku kepentingan
Para ahli mengobrol dengan aplikasi ulasan
Untuk menggunakan opsi ini, panggil deploy_model(…)
dan atur izin yang benar. Diagram berikut menunjukkan cara kerja opsi ini.
J. Pemangku kepentingan ahli mengobrol dengan aplikasi agenik B. Umpan balik tentang respons C. Permintaan/respons aplikasi D. Permintaan/respons aplikasi + jejak + umpan balik
Ahli meninjau log
Untuk menggunakan opsi ini, pertama-tama sebarkan aplikasi agenik Anda menggunakan deploy_model(…)
. Setelah pengguna berinteraksi dengan REST API atau meninjau aplikasi, Anda dapat memuat jejak ini kembali ke aplikasi ulasan menggunakan kode berikut.
from databricks.agents import enable_trace_reviews
enable_trace_reviews(
model_name=model_fqn,
request_ids=[
"52ee973e-0689-4db1-bd05-90d60f94e79f",
"1b203587-7333-4721-b0d5-bba161e4643a",
"e68451f4-8e7b-4bfc-998e-4bda66992809",
],
)
Gunakan nilai dari request_id
kolom tabel log permintaan.
Catatan
Jika Anda mengaktifkan Azure Storage Firewall, hubungi tim akun Azure Databricks Anda untuk mengaktifkan tabel inferensi untuk titik akhir Anda.
Sebuah. enable_trace_reviews([request_id])
B. Obrolan dimuat C. Obrolan pemangku kepentingan ahli dengan aplikasi D. Umpan balik tentang respons E. Permintaan dari penggunaan aplikasi front-end atau tinjau penggunaan aplikasi F. Permintaan/respons aplikasi G. Permintaan/respons aplikasi + jejak + umpan balik
Jalankan evaluasi pada tabel log permintaan
Notebook berikut mengilustrasikan cara menggunakan log dari aplikasi tinjauan sebagai input ke evaluasi yang dijalankan menggunakan mlflow.evaluate()
.
Menjalankan evaluasi pada buku catatan log permintaan
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk