Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Gambaran Umum
Hakim adalah blok penyusun SDK/API MLflow untuk penilaian kualitas berbasis LLM. Setiap hakim menggunakan model LLM yang dihosting Databricks yang disetel khusus yang dirancang untuk melaksanakan penilaian kualitas GenAI.
Anggap hakim sebagai asisten AI khusus dalam penilaian kualitas - mereka membaca output aplikasi Anda dan membuat penilaian berdasarkan kriteria yang Anda tentukan. Misalnya, mereka dapat memahami bahwa give me healthy food options
adalah kueri yang sama atau sangat mirip dengan food to keep me fit
.
Penting
Meskipun penilai dapat digunakan sebagai API mandiri, penilai harus dibungkus dalam Scorer untuk digunakan oleh Evaluation Harness dan layanan pemantauan produksi.
Kapan menggunakan hakim
Gunakan penilai saat Anda perlu mengevaluasi input atau output bahasa sederhana.
- Kebenaran semantik: "Apakah ini menjawab pertanyaan dengan benar?"
- Gaya dan nada: "Apakah ini sesuai untuk suara merek kami?"
- Keamanan dan kepatuhan: "Apakah ini mengikuti pedoman konten kami?"
- Kualitas relatif: "Respons mana yang lebih membantu?"
Gunakan skor kustom berbasis kode sebagai gantinya untuk:
- Pencocokan yang tepat: Memeriksa kata kunci tertentu
- Validasi format: Struktur JSON, batas panjang
- Metrik performa: Latensi, penggunaan token
Penjelajahan lebih dalam mengenai hakim
Untuk informasi terperinci tentang hakim tertentu:
Hakim yang telah ditentukan sebelumnya
MLflow menyediakan hakim yang divalidasi penelitian untuk kasus penggunaan umum:
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)
Lihat referensi hakim yang telah ditentukan sebelumnya untuk dokumentasi terperinci.
Hakim Khusus
Bangun hakim khusus domain menggunakan dua pendekatan:
Berbasis pedoman(titik awal yang direkomendasikan) - Kriteria lulus/gagal bahasa alami yang mudah dijelaskan kepada pihak terkait. Terbaik untuk pemeriksaan kepatuhan, panduan gaya, atau penyertaan/pengecualian informasi.
Berbasis perintah - Kustomisasi permintaan penuh untuk evaluasi kompleks. Gunakan saat Anda memerlukan beberapa nilai output (misalnya, "hebat", "ok", "buruk") atau kriteria yang tidak dapat dinyatakan sebagai pedoman pass/fail.
Menilai keakuratan
Databricks terus meningkatkan kualitas penilaian melalui:
- Validasi penelitian terhadap penilaian ahli manusia
- Pelacakan metrik: Cohen's Kappa, akurasi, skor F1
- Berbagai pengujian pada dataset akademik dan dunia nyata
Lihat Blog Databricks tentang peningkatan hakim LLM untuk detailnya.
Informasi tentang model yang mendukung penilai LLM
- Hakim LLM mungkin menggunakan layanan pihak ketiga untuk mengevaluasi aplikasi GenAI Anda, termasuk Azure OpenAI yang dioperasikan oleh Microsoft.
- Untuk Azure OpenAI, Databricks telah memilih keluar dari Pemantauan Penyalahgunaan sehingga tidak ada permintaan atau respons yang disimpan dengan Azure OpenAI.
- Untuk ruang kerja Uni Eropa (UE), penilai LLM menggunakan model yang dioperasikan di UE. Semua wilayah lain menggunakan model yang dihosting di AS.
- Dengan menonaktifkan fitur asisten AI bertenaga Azure AI, hakim LLM dicegah memanggil model yang didukung Azure AI.
- Hakim LLM dimaksudkan untuk membantu pelanggan mengevaluasi agen/aplikasi GenAI mereka, dan output hakim LLM tidak boleh digunakan untuk melatih, meningkatkan, atau menyempurnakan LLM.
Langkah selanjutnya
Panduan cara penggunaan
- Gunakan pemeringkat LLM yang telah ditentukan sebelumnya yang meliputi hakim bawaan
- Membuat hakim berbasis pedoman menggunakan kriteria bahasa alami
- Membangun penilaian berbasis prompt yang disesuaikan untuk evaluasi kompleks
Konsep
- Referensi hakim yang telah ditentukan - Dokumentasi terperinci semua hakim bawaan
- Juri berbasis pedoman - Cara kerja evaluasi pedoman
- Hakim berbasis prompt - Membuat perintah evaluasi kustom
- Para Penilai - Bagaimana penilai berintegrasi dengan sistem evaluasi