Cara melihat hasil evaluasi di Azure AI Studio

Artikel
09/25/2024

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Halaman evaluasi Azure AI Studio adalah hub serbaguna yang tidak hanya memungkinkan Anda memvisualisasikan dan menilai hasil Anda tetapi juga berfungsi sebagai pusat kontrol untuk mengoptimalkan, memecahkan masalah, dan memilih model AI yang ideal untuk kebutuhan penyebaran Anda. Ini adalah solusi satu stop untuk pengambilan keputusan berbasis data dan peningkatan performa di proyek AI Studio Anda. Anda dapat dengan mulus mengakses dan menginterpretasikan hasil dari berbagai sumber, termasuk alur Anda, sesi uji cepat taman bermain, UI pengiriman evaluasi, dan SDK. Fleksibilitas ini memastikan bahwa Anda dapat berinteraksi dengan hasil Anda dengan cara yang paling sesuai dengan alur kerja dan preferensi Anda.

Setelah memvisualisasikan hasil evaluasi, Anda dapat menyelami pemeriksaan menyeluruh. Ini termasuk kemampuan untuk tidak hanya melihat hasil individu tetapi juga untuk membandingkan hasil ini di beberapa eksekusi evaluasi. Dengan demikian, Anda dapat mengidentifikasi tren, pola, dan perbedaan, mendapatkan wawasan yang tak ternilai tentang performa sistem AI Anda dalam berbagai kondisi.

Dalam artikel ini Anda belajar untuk:

Lihat hasil evaluasi dan metrik.
Bandingkan hasil evaluasi.
Pahami metrik evaluasi bawaan.
Meningkatkan performa.
Lihat hasil evaluasi dan metrik.

Menemukan hasil evaluasi Anda

Setelah mengirimkan evaluasi, Anda dapat menemukan eksekusi evaluasi yang dikirimkan dalam daftar eksekusi dengan menavigasi ke halaman Evaluasi .

Anda dapat memantau dan mengelola eksekusi evaluasi dalam daftar eksekusi. Dengan fleksibilitas untuk memodifikasi kolom menggunakan editor kolom dan menerapkan filter, Anda dapat menyesuaikan dan membuat versi daftar eksekusi Anda sendiri. Selain itu, Anda dapat dengan cepat meninjau metrik evaluasi agregat di seluruh eksekusi, memungkinkan Anda untuk melakukan perbandingan cepat.

Untuk pemahaman yang lebih mendalam tentang bagaimana metrik evaluasi diturunkan, Anda dapat mengakses penjelasan komprehensif dengan memilih opsi 'Pahami selengkapnya tentang metrik'. Sumber daya terperinci ini memberikan wawasan berharga tentang perhitungan dan interpretasi metrik yang digunakan dalam proses evaluasi.

Anda dapat memilih eksekusi tertentu, yang akan membawa Anda ke halaman detail eksekusi. Di sini, Anda dapat mengakses informasi komprehensif, termasuk detail evaluasi seperti himpunan data pengujian, jenis tugas, prompt, suhu, dan lainnya. Selain itu, Anda dapat melihat metrik yang terkait dengan setiap sampel data. Bagan skor metrik memberikan representasi visual tentang bagaimana skor didistribusikan untuk setiap metrik di seluruh himpunan data Anda.

Dalam tabel detail metrik, Anda dapat melakukan pemeriksaan komprehensif dari setiap sampel data individual. Di sini, Anda dapat memeriksa output yang dihasilkan dan skor metrik evaluasi yang sesuai. Tingkat detail ini memungkinkan Anda membuat keputusan berbasis data dan mengambil tindakan tertentu untuk meningkatkan performa model Anda.

Beberapa item tindakan potensial berdasarkan metrik evaluasi dapat mencakup:

Pengenalan Pola: Dengan memfilter nilai dan metrik numerik, Anda dapat menelusuri paling detail sampel dengan skor yang lebih rendah. Selidiki sampel ini untuk mengidentifikasi pola atau masalah berulang dalam respons model Anda. Misalnya, Anda mungkin melihat bahwa skor rendah sering terjadi ketika model menghasilkan konten pada topik tertentu.
Penyempurnaan Model: Gunakan wawasan dari sampel penilaian yang lebih rendah untuk meningkatkan instruksi prompt sistem atau menyempurnakan model Anda. Jika Anda mengamati masalah yang konsisten dengan, misalnya, koherensi atau relevansi, Anda juga dapat menyesuaikan data pelatihan model atau parameter yang sesuai.
Kustomisasi Kolom: Editor kolom memberdayakan Anda untuk membuat tampilan tabel yang dikustomisasi, berfokus pada metrik dan data yang paling relevan dengan tujuan evaluasi Anda. Ini dapat menyederhanakan analisis Anda dan membantu Anda menemukan tren secara lebih efektif.
Pencarian Kata Kunci: Kotak pencarian memungkinkan Anda mencari kata atau frasa tertentu dalam output yang dihasilkan. Ini dapat berguna untuk menentukan masalah atau pola yang terkait dengan topik atau kata kunci tertentu dan mengatasinya secara khusus.

Tabel detail metrik menawarkan banyak data yang dapat memandu upaya peningkatan model Anda, mulai dari mengenali pola hingga menyesuaikan tampilan Anda untuk analisis yang efisien dan menyempurnakan model Anda berdasarkan masalah yang diidentifikasi.

Kami memecah tampilan agregat atau metrik Anda berdasarkan metrik Performa dan kualitas dan Risiko dan keamanan. Anda dapat melihat distribusi skor di seluruh himpunan data yang dievaluasi dan melihat skor agregat untuk setiap metrik.

Untuk metrik performa dan kualitas, kami mengagregasi dengan menghitung rata-rata di semua skor untuk setiap metrik.
Untuk metrik risiko dan keamanan, kami mengagregasi dengan menghitung tingkat cacat untuk setiap metrik.
- Untuk metrik bahaya konten, tingkat cacat didefinisikan sebagai persentase instans dalam himpunan data pengujian Anda yang melampaui ambang batas pada skala tingkat keparahan atas seluruh ukuran himpunan data. Secara default, ambang batasnya adalah "Sedang".
- Untuk material yang dilindungi dan serangan tidak langsung, tingkat cacat dihitung sebagai persentase instans di mana outputnya adalah 'true' (Tingkat Cacat = (#trues / #instances) × 100).

Berikut adalah beberapa contoh hasil metrik untuk skenario jawaban atas pertanyaan:

Dan berikut adalah beberapa contoh hasil metrik untuk skenario percakapan:

Untuk skenario percakapan multi-giliran, Anda dapat memilih "Lihat hasil evaluasi per giliran" untuk memeriksa metrik evaluasi untuk setiap giliran dalam percakapan.

Untuk metrik risiko dan keamanan, evaluasi memberikan skor tingkat keparahan dan penalaran untuk setiap skor. Berikut adalah beberapa contoh hasil metrik risiko dan keamanan untuk skenario jawaban atas pertanyaan:

Hasil evaluasi mungkin memiliki arti yang berbeda untuk audiens yang berbeda. Misalnya, evaluasi keamanan dapat menghasilkan label untuk tingkat keparahan "Rendah" konten kekerasan yang mungkin tidak selaras dengan definisi pengulas manusia tentang seberapa parah konten kekerasan tertentu itu. Kami menyediakan kolom umpan balik manusia dengan jempol ke atas dan jempol ke bawah saat meninjau hasil evaluasi Anda ke permukaan instans mana yang disetujui atau ditandai sebagai salah oleh peninjau manusia.

Saat memahami setiap metrik risiko konten, Anda dapat dengan mudah melihat setiap definisi metrik dan skala tingkat keparahan dengan memilih nama metrik di atas bagan untuk melihat penjelasan terperinci dalam pop-up.

Jika ada yang salah dengan eksekusi, Anda juga dapat men-debug evaluasi anda berjalan dengan log dan jejak.

Berikut adalah beberapa contoh log yang dapat Anda gunakan untuk men-debug eksekusi evaluasi Anda:

Dan berikut adalah contoh tampilan penelusuran dan penelusuran kesalahan:

Jika Anda mengevaluasi alur perintah, Anda dapat memilih tombol Tampilkan dalam alur untuk menavigasi ke halaman alur yang dievaluasi untuk membuat pembaruan ke alur Anda. Misalnya, menambahkan instruksi perintah meta tambahan, atau mengubah beberapa parameter dan mengevaluasi ulang.

Membandingkan hasil evaluasi

Untuk memfasilitasi perbandingan komprehensif antara dua atau beberapa eksekusi, Anda memiliki opsi untuk memilih eksekusi yang diinginkan dan memulai proses dengan memilih tombol Bandingkan atau, untuk tampilan dasbor terperinci umum, tombol Beralih ke tampilan dasbor. Fitur ini memberdayakan Anda untuk menganalisis dan membedakan performa dan hasil dari beberapa eksekusi, memungkinkan pengambilan keputusan yang lebih tepat dan peningkatan yang ditargetkan.

Dalam tampilan dasbor, Anda memiliki akses ke dua komponen berharga: bagan perbandingan distribusi metrik dan tabel perbandingan. Alat-alat ini memungkinkan Anda melakukan analisis berdampingan dari eksekusi evaluasi yang dipilih, memungkinkan Anda membandingkan berbagai aspek setiap sampel data dengan mudah dan presisi.

Dalam tabel perbandingan, Anda memiliki kemampuan untuk membuat garis besar untuk perbandingan Anda dengan mengarahkan mouse ke atas eksekusi tertentu yang ingin Anda gunakan sebagai titik referensi dan ditetapkan sebagai garis besar. Selain itu, dengan mengaktifkan tombol 'Tampilkan delta', Anda dapat dengan mudah memvisualisasikan perbedaan antara eksekusi garis besar dan yang lain berjalan untuk nilai numerik. Selain itu, dengan pengalih 'Tampilkan hanya perbedaan' diaktifkan, tabel hanya menampilkan baris yang berbeda di antara eksekusi yang dipilih, membantu identifikasi variasi yang berbeda.

Dengan menggunakan fitur perbandingan ini, Anda dapat membuat keputusan berdasarkan informasi untuk memilih versi terbaik:

Perbandingan Garis Besar: Dengan mengatur eksekusi garis besar, Anda dapat mengidentifikasi titik referensi untuk membandingkan eksekusi lainnya. Ini memungkinkan Anda untuk melihat bagaimana setiap eksekusi menyimpang dari standar yang Anda pilih.
Penilaian Nilai Numerik: Mengaktifkan opsi 'Tampilkan delta' membantu Anda memahami sejauh mana perbedaan antara garis besar dan eksekusi lainnya. Ini berguna untuk mengevaluasi performa berbagai eksekusi dalam hal metrik evaluasi tertentu.
Isolasi Perbedaan: Fitur 'Tampilkan hanya perbedaan' menyederhanakan analisis Anda dengan hanya menyoroti area di mana ada perbedaan antara eksekusi. Ini dapat bersifat instrumental dalam menentukan di mana penyempurnaan atau penyesuaian diperlukan.

Dengan menggunakan alat perbandingan ini secara efektif, Anda dapat mengidentifikasi versi model atau sistem anda yang berkinerja terbaik sehubungan dengan kriteria dan metrik yang ditentukan, pada akhirnya membantu Anda dalam memilih opsi yang paling optimal untuk aplikasi Anda.

Mengukur kerentanan jailbreak

Mengevaluasi jailbreak adalah pengukuran komparatif, bukan metrik yang dibantu AI. Jalankan evaluasi pada dua himpunan data beregu merah yang berbeda: himpunan data pengujian adversarial garis besar versus himpunan data pengujian lawan yang sama dengan suntikan jailbreak pada giliran pertama. Anda dapat menggunakan simulator data adversarial untuk menghasilkan himpunan data dengan atau tanpa suntikan jailbreak.

Untuk memahami apakah aplikasi Anda rentan terhadap jailbreak, Anda dapat menentukan garis besar mana yang kemudian mengaktifkan tombol "Tingkat cacat Jailbreak" dalam tabel perbandingan. Tingkat cacat jailbreak didefinisikan sebagai persentase instans dalam himpunan data pengujian Anda di mana injeksi jailbreak menghasilkan skor tingkat keparahan yang lebih tinggi untuk metrik risiko konten apa pun sehubungan dengan garis besar atas seluruh ukuran himpunan data. Anda dapat memilih beberapa evaluasi di dasbor perbandingan Anda untuk melihat perbedaan tingkat cacat.

Tip

Tingkat cacat jailbreak dihitung secara sebanding hanya untuk himpunan data dengan ukuran yang sama dan hanya ketika semua eksekusi mencakup risiko konten dan metrik keamanan.

Memahami metrik evaluasi bawaan

Memahami metrik bawaan sangat penting untuk menilai performa dan efektivitas aplikasi AI Anda. Dengan mendapatkan wawasan tentang alat pengukuran utama ini, Anda lebih siap untuk menginterpretasikan hasil, membuat keputusan berdasarkan informasi, dan menyempurnakan aplikasi Anda untuk mencapai hasil yang optimal. Untuk mempelajari selengkapnya tentang signifikansi setiap metrik, cara menghitungnya, perannya dalam mengevaluasi berbagai aspek model Anda, dan cara menginterpretasikan hasil untuk melakukan peningkatan berbasis data, lihat Metrik Evaluasi dan Pemantauan.

Langkah berikutnya

Pelajari selengkapnya tentang cara mengevaluasi aplikasi AI generatif Anda:

Pelajari selengkapnya tentang teknik mitigasi bahaya.

Bagikan melalui