Skorer berbasis LLM

2025-06-11

Gambaran Umum

Hakim adalah blok penyusun SDK/API MLflow untuk penilaian kualitas berbasis LLM. Setiap hakim menggunakan model LLM yang dihosting Databricks yang disetel khusus yang dirancang untuk melaksanakan penilaian kualitas GenAI.

Anggap hakim sebagai asisten AI khusus dalam penilaian kualitas - mereka membaca output aplikasi Anda dan membuat penilaian berdasarkan kriteria yang Anda tentukan. Misalnya, mereka dapat memahami bahwa give me healthy food options adalah kueri yang sama atau sangat mirip dengan food to keep me fit.

Penting

Meskipun penilai dapat digunakan sebagai API mandiri, penilai harus dibungkus dalam Scorer untuk digunakan oleh Evaluation Harness dan layanan pemantauan produksi.

Kapan menggunakan hakim

Gunakan penilai saat Anda perlu mengevaluasi input atau output bahasa sederhana.

Kebenaran semantik: "Apakah ini menjawab pertanyaan dengan benar?"
Gaya dan nada: "Apakah ini sesuai untuk suara merek kami?"
Keamanan dan kepatuhan: "Apakah ini mengikuti pedoman konten kami?"
Kualitas relatif: "Respons mana yang lebih membantu?"

Gunakan skor kustom berbasis kode sebagai gantinya untuk:

Pencocokan yang tepat: Memeriksa kata kunci tertentu
Validasi format: Struktur JSON, batas panjang
Metrik performa: Latensi, penggunaan token

Penjelajahan lebih dalam mengenai hakim

Untuk informasi terperinci tentang hakim tertentu:

Hakim yang telah ditentukan sebelumnya

MLflow menyediakan hakim yang divalidasi penelitian untuk kasus penggunaan umum:

from mlflow.genai.judges import (
    is_safe,              # Content safety
    is_relevant,          # Query relevance
    is_grounded,          # RAG grounding
    is_correct,           # Factual accuracy
    is_context_sufficient # Retrieval quality
)

Lihat referensi hakim yang telah ditentukan sebelumnya untuk dokumentasi terperinci.

Hakim Khusus

Bangun hakim khusus domain menggunakan dua pendekatan:

Berbasis pedoman(titik awal yang direkomendasikan) - Kriteria lulus/gagal bahasa alami yang mudah dijelaskan kepada pihak terkait. Terbaik untuk pemeriksaan kepatuhan, panduan gaya, atau penyertaan/pengecualian informasi.
Berbasis perintah - Kustomisasi permintaan penuh untuk evaluasi kompleks. Gunakan saat Anda memerlukan beberapa nilai output (misalnya, "hebat", "ok", "buruk") atau kriteria yang tidak dapat dinyatakan sebagai pedoman pass/fail.

Menilai keakuratan

Databricks terus meningkatkan kualitas penilaian melalui:

Validasi penelitian terhadap penilaian ahli manusia
Pelacakan metrik: Cohen's Kappa, akurasi, skor F1
Berbagai pengujian pada dataset akademik dan dunia nyata

Lihat Blog Databricks tentang peningkatan hakim LLM untuk detailnya.

Informasi tentang model yang mendukung penilai LLM

Hakim LLM mungkin menggunakan layanan pihak ketiga untuk mengevaluasi aplikasi GenAI Anda, termasuk Azure OpenAI yang dioperasikan oleh Microsoft.
Untuk Azure OpenAI, Databricks telah memilih keluar dari Pemantauan Penyalahgunaan sehingga tidak ada permintaan atau respons yang disimpan dengan Azure OpenAI.
Untuk ruang kerja Uni Eropa (UE), penilai LLM menggunakan model yang dioperasikan di UE. Semua wilayah lain menggunakan model yang dihosting di AS.
Dengan menonaktifkan fitur asisten AI bertenaga Azure AI, hakim LLM dicegah memanggil model yang didukung Azure AI.
Hakim LLM dimaksudkan untuk membantu pelanggan mengevaluasi agen/aplikasi GenAI mereka, dan output hakim LLM tidak boleh digunakan untuk melatih, meningkatkan, atau menyempurnakan LLM.

Langkah selanjutnya

Panduan cara penggunaan

Gunakan pemeringkat LLM yang telah ditentukan sebelumnya yang meliputi hakim bawaan
Membuat hakim berbasis pedoman menggunakan kriteria bahasa alami
Membangun penilaian berbasis prompt yang disesuaikan untuk evaluasi kompleks

Konsep

Referensi hakim yang telah ditentukan - Dokumentasi terperinci semua hakim bawaan
Juri berbasis pedoman - Cara kerja evaluasi pedoman
Hakim berbasis prompt - Membuat perintah evaluasi kustom
Para Penilai - Bagaimana penilai berintegrasi dengan sistem evaluasi