Menggunakan tolok ukur di Genie Space

Halaman ini menjelaskan cara menggunakan tolok ukur untuk mengevaluasi akurasi Ruang Genie Anda.

Ikhtisar

Tolok ukur memungkinkan Anda membuat serangkaian pertanyaan pengujian yang dapat Anda jalankan untuk menilai akurasi respons Genie secara keseluruhan. Serangkaian tolok ukur yang dirancang dengan baik yang mencakup pertanyaan pengguna yang paling sering diajukan membantu mengevaluasi akurasi Ruang Genie Anda saat Anda memperbaikinya. Setiap Genie Space dapat berisi hingga 500 pertanyaan tolok ukur.

Pertanyaan tolok ukur dijalankan sebagai percakapan baru. Mereka tidak memiliki konteks yang sama seperti percakapan Genie bersusun. Setiap pertanyaan diproses sebagai kueri baru, menggunakan instruksi yang ditentukan dalam ruang, termasuk contoh fungsi SQL dan SQL yang disediakan.

Contoh tolok ukur dengan akurasi yang dilaporkan pada sembilan pertanyaan.

Menambahkan pertanyaan tolok ukur

Pertanyaan tolok ukur harus mencerminkan berbagai cara untuk membuat frasa pertanyaan umum yang diajukan pengguna Anda. Anda dapat menggunakannya untuk memeriksa respons Genie terhadap variasi dalam pembuatan frasa pertanyaan atau format pertanyaan yang berbeda.

Saat membuat pertanyaan tolok ukur, Anda dapat secara opsional menyertakan kueri SQL yang tataan hasilnya adalah jawaban yang benar. Selama eksekusi tolok ukur, akurasi dinilai dengan membandingkan hasil yang ditetapkan dari kueri SQL Anda dengan yang dihasilkan oleh Genie. Anda juga dapat menggunakan fungsi Unity Catalog SQL sebagai jawaban standar emas untuk tolok ukur.

Untuk menambahkan pertanyaan tolok ukur:

Di dekat bagian atas Genie Space, klik Tolok Ukur.
Klik Tambahkan tolok ukur.
Di bidang Pertanyaan, masukkan pertanyaan tolok ukur untuk diuji.
(Opsional) Berikan kueri SQL yang menjawab pertanyaan. Anda dapat menulis kueri Anda sendiri dengan mengetik di bidang teks SQL Answer, termasuk fungsi SQL dari Katalog Unity. Atau, klik Hasilkan SQL agar Genie menulis kueri SQL untuk Anda. Gunakan pernyataan SQL yang secara akurat menjawab pertanyaan yang Anda masukkan.

Catatan

Langkah ini direkomendasikan. Hanya pertanyaan yang menyertakan contoh pernyataan SQL ini yang dapat dinilai secara otomatis untuk akurasi. Setiap pertanyaan yang tidak menyertakan Jawaban SQL memerlukan peninjauan manual untuk dinilai. Jika Anda menggunakan tombol Hasilkan SQL , tinjau pernyataan untuk memastikan bahwa pernyataan tersebut menjawab pertanyaan secara akurat.
(Opsional) Klik Jalankan untuk menjalankan kueri Anda dan menampilkan hasilnya.
Setelah selesai mengedit, klik Tambahkan tolok ukur.
Untuk memperbarui pertanyaan setelah menyimpan, klik ikon Edit ikon pensil untuk membuka dialog pertanyaan Pembaruan .

Menggunakan tolok ukur untuk menguji pembuatan frasa pertanyaan alternatif

Saat mengevaluasi akurasi Ruang Genie Anda, penting untuk menyusun pengujian untuk mencerminkan skenario realistis. Pengguna dapat mengajukan pertanyaan yang sama dengan cara yang berbeda. Databricks merekomendasikan untuk menambahkan beberapa frasa pertanyaan yang sama dan menggunakan contoh SQL yang sama dalam pengujian tolok ukur Anda untuk sepenuhnya menilai akurasi. Sebagian besar Ruang Genie harus mencakup antara dua dan empat frasa pertanyaan yang sama.

Jalankan pertanyaan tolok ukur

Pengguna dengan setidaknya izin DAPAT MENGEDIT di Genie Space dapat menjalankan tolok ukur evaluasi kapan saja. Anda dapat menjalankan semua pertanyaan tolok ukur atau memilih subset pertanyaan yang akan diuji.

Untuk setiap pertanyaan, Genie menginterpretasikan input, menghasilkan SQL, dan mengembalikan hasil. SQL dan hasil yang dihasilkan kemudian dibandingkan dengan Jawaban SQL yang ditentukan dalam pertanyaan tolok ukur.

Untuk menjalankan semua pertanyaan acuan:

Di dekat bagian atas Genie Space, klik Tolok Ukur.
Klik Jalankan tolok ukur untuk memulai uji coba.

Untuk menjalankan subkumpulan pertanyaan pengujian tolok ukur:

Di dekat bagian atas Genie Space, klik Tolok Ukur.
Pilih kotak centang di samping pertanyaan yang ingin Anda uji.
Klik Jalankan yang dipilih untuk menjalankan uji coba pada pertanyaan yang dipilih.

Anda juga dapat memilih subset pertanyaan dari hasil tolok ukur sebelumnya dan menjalankan ulang pertanyaan spesifik tersebut untuk menguji peningkatan.

Tolok ukur terus berjalan saat Anda beralih dari halaman. Anda dapat memeriksa hasil pada tab Evaluasi saat proses selesai.

Menginterpretasikan peringkat

Kriteria berikut menentukan bagaimana respons Genie dinilai:

Keadaan	Rating
Genie menghasilkan SQL yang sama persis dengan Jawaban SQL yang disediakan	Bagus
Genie menghasilkan tataan hasil yang sama persis dengan tataan hasil yang dihasilkan oleh Jawaban SQL	Bagus
Genie menghasilkan tataan hasil dengan data yang sama dengan Jawaban SQL tetapi diurutkan secara berbeda	Bagus
Genie menghasilkan set hasil dengan nilai numerik yang dibulatkan menjadi 4 digit signifikan yang sama seperti Jawaban SQL	Baik
Genie menghasilkan SQL yang menghasilkan tataan hasil kosong atau mengembalikan kesalahan	Buruk
Genie menghasilkan tataan hasil yang menyertakan kolom tambahan dibandingkan dengan tataan hasil yang dihasilkan oleh Jawaban SQL	Buruk
Genie menghasilkan hasil sel tunggal yang berbeda dari hasil sel tunggal yang dihasilkan oleh Jawaban SQL	Buruk

Tinjauan manual diperlukan: Respons ditandai dengan label ini ketika Genie tidak dapat menilai kebenaran atau ketika hasil kueri yang dihasilkan Genie tidak berisi kecocokan yang tepat dengan hasil dari Jawaban SQL yang disediakan. Setiap pertanyaan tolok ukur yang tidak menyertakan Jawaban SQL harus ditinjau secara manual.

Akses evaluasi tolok ukur

Anda dapat mengakses semua evaluasi tolok ukur Anda untuk melacak akurasi di Genie Space Anda dari waktu ke waktu. Saat Anda membuka Tolok Ukurspasi, daftar pelaksanaan evaluasi yang diberi tanda waktu akan muncul di tab Evaluasi. Jika tidak ada pelaksanaan evaluasi yang ditemukan, lihat Tambahkan pertanyaan tolok ukur atau Jalankan pertanyaan tolok ukur.

Layar evaluasi seperti yang dijelaskan dalam teks berikut.

Tab Evaluasi menunjukkan gambaran umum evaluasi dan performanya yang dilaporkan dalam kategori berikut:

Nama evaluasi: Tanda waktu yang menunjukkan kapan eksekusi evaluasi terjadi. Klik tanda waktu untuk melihat detail evaluasi tersebut. Status eksekusi: Menunjukkan apakah evaluasi selesai, dijeda, atau tidak berhasil. Jika eksekusi evaluasi menyertakan pertanyaan tolok ukur yang tidak memiliki jawaban SQL yang telah ditentukan sebelumnya, itu ditandai untuk ditinjau di kolom ini. Akurasi: Penilaian numerik akurasi di semua pertanyaan tolok ukur. Untuk proses evaluasi yang membutuhkan tinjauan manual, ukuran akurasi hanya muncul setelah pertanyaan-pertanyaan tersebut ditinjau. Dibuat oleh: Menunjukkan nama pengguna yang menjalankan evaluasi.

Meninjau evaluasi individual

Anda dapat meninjau evaluasi individual untuk mendapatkan tampilan terperinci pada setiap respons. Anda dapat mengedit penilaian untuk pertanyaan apa pun dan memperbarui item apa pun yang memerlukan peninjauan manual.

Untuk meninjau evaluasi individu:

Di dekat bagian atas Genie Space, klik Benchmark.
Klik tanda waktu untuk evaluasi apa pun di kolom Nama evaluasi untuk membuka tampilan terperinci dari eksekusi pengujian tersebut.
Gunakan daftar pertanyaan di sisi kiri layar untuk melihat tampilan terperinci dari setiap pertanyaan.
Tinjau dan bandingkan respons keluaran Model dengan respons Kebenaran dasar.

Untuk hasil yang dinilai salah, penjelasan muncul yang menjelaskan mengapa hasilnya dinilai sebagai Buruk. Ini membantu Anda memahami perbedaan spesifik antara output yang dihasilkan dan kebenaran dasar yang diharapkan.

Catatan

Hasil respons ini muncul dalam detail evaluasi selama satu minggu. Setelah satu minggu, hasilnya tidak lagi terlihat. Pernyataan SQL yang dihasilkan dan contoh pernyataan SQL tetap ada.
Klik Perbarui kebenaran dasar untuk menyimpan respons sebagai kebenaran Dasar baru untuk pertanyaan ini. Ini berguna jika tidak ada kebenaran dasar, atau jika responsnya lebih baik atau lebih akurat daripada pernyataan kebenaran dasar yang ada.
Klik pada label untuk mengedit penilaian.

Tandai setiap hasil sebagai Good atau Bad untuk mendapatkan skor yang akurat untuk evaluasi ini.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-29