Menjalankan dan membandingkan evaluasi otomatis

20 menit

Evaluasi Otomatis dalam Azure AI Studio menjalankan evaluasi yang dibantu AI yang menggunakan LLM, seperti GPT-4, untuk mengevaluasi output sistem bahasa AI generatif. Proses ini dicapai dengan menginstruksikan LLM untuk membuat anotasi aspek tertentu dari output yang dihasilkan AI. Misalnya, Anda dapat memberikan GPT-4 dengan skala tingkat keparahan relevansi (misalnya, memberikan kriteria anotasi relevansi pada skala 1-5) dan kemudian meminta GPT-4 untuk membuat anotasi relevansi respons sistem AI terhadap pertanyaan tertentu.

Kami dapat menggunakan evaluasi yang dibantu AI untuk menilai performa dan keamanan aplikasi AI generatif Anda. Evaluasi yang dibantu AI dapat bermanfaat dalam skenario di mana kebenaran dasar dan jawaban yang diharapkan tidak tersedia. Dalam banyak skenario AI generatif, seperti jawaban atas pertanyaan terbuka atau penulisan kreatif, jawaban yang benar tunggal tidak ada, membuatnya menantang untuk menetapkan kebenaran dasar atau jawaban yang diharapkan yang diperlukan untuk metrik tradisional.

Dalam konteks chatbot Contoso Camping Store, Anda disediakan dengan himpunan data pengujian yang mencakup input sampel, dan respons yang dihasilkan dari model yang didasarkan pada konfigurasinya saat ini. Mari kita jalankan evaluasi otomatis untuk menilai performa dan keamanan model.

Mengonfigurasi dan menjalankan evaluasi otomatis

Di navigasi kiri, di dalam bagian Alat , pilih Evaluasi.
Pilih Evaluasi baru.
Untuk jendela Apa yang ingin Anda evaluasi? , pilih Himpunan Data.

Informasi Dasar

Di bidang Nama evaluasi, masukkan: automated-eval1
Untuk bidang Jenis skenario apa yang Anda evaluasi? , pilih Pertanyaan dan jawaban tanpa konteks.
Pilih Selanjutnya.

Mengonfigurasi data pengujian

Untuk pertanyaan Pilih data yang ingin Anda evaluasi , pilih Tambahkan himpunan data Anda.
Telusuri ke tempat Anda menyimpan e2e-automated-evaluation-1.jsonl dan pilih file untuk diunggah.
Pilih Selanjutnya.

Pilih metrik

Untuk metrik Performa dan kualitas yang dikumpulkan oleh Microsoft, pilih semua metrik.
Untuk bidang Koneksi, pilih koneksi AzureOpenAI Anda.
Untuk bidang Nama penyebaran/Model, pilih model gpt-4.
Untuk metrik Risiko dan keamanan yang dikumpulkan oleh Microsoft, pilih semua metrik.
Untuk Atur ambang batas untuk menghitung tingkat cacat, pilih Sedang.
Untuk bagian Bagaimana himpunan data Anda dipetakan ke input evaluasi? , petakan bidang berikut:

Mengalir	Sumber himpunan data
menjawab	${data.answer}
pertanyaan	${data.question}
ground_truth	${data.ground_truth}

Tinjau dan selesai

Konfirmasikan bahwa semua konfigurasi akurat. Jika perlu, pilih ikon pensil untuk mengedit konfigurasi.
Pilih kirim.

Catatan

Evaluasi mungkin memakan waktu beberapa menit untuk dijalankan. Setelah evaluasi selesai, Anda dapat melihat hasilnya dengan menavigasi ke evaluasi yang dijalankan dalam tab Evaluasi otomatis.

Tinjau hasil evaluasi

Hasil untuk evaluasi otomatis bervariasi karena evaluasi dipengaruhi oleh model GPT yang digunakan untuk menjalankan evaluasi yang dibantu AI. Oleh karena itu, tinjauan hasil yang diberikan digeneralisasi dan berdasarkan sampel hasil evaluasi otomatis. Anda didorong untuk menganalisis hasil evaluasi otomatis Anda sendiri untuk mendiskusikan potensi peningkatan yang dapat dilakukan untuk meningkatkan hasil.

Di navigasi kiri, di dalam bagian Alat , pilih Evaluasi.
Pada tab Evaluasi otomatis, pilih eksekusi evaluasi automated-eval1 dari daftar untuk melihat detail selengkapnya di halaman detail eksekusi.
Dasbor Metrik menyediakan rata-rata untuk setiap metrik. Alihkan antara tab Performa dan kualitas dan Risiko dan keamanan untuk menganalisis hasil rata-rata.
Bagian Hasil metrik terperinci menyediakan perincian hasil untuk setiap baris data yang dievaluasi. Gulir tabel hasil untuk menganalisis hasil dan melihat penalaran masing-masing.

Tip

Pilih ikon i untuk setiap metrik untuk mempelajari selengkapnya tentang arti metrik. Selain itu, skor tertinggi yang mungkin untuk setiap metrik Performa dan kualitas adalah 5.

Memutuskan tindakan terbaik

Sekarang setelah Anda memiliki hasil evaluasi otomatis, Anda dilengkapi dengan data analitik untuk memengaruhi dan mendukung tindakan Anda berikutnya. Apakah pesan sistem memerlukan penyesuaian? Apakah ada koneksi data lain yang akan dibuat? Atau apakah Anda menduga bahwa model lain mungkin memberikan hasil yang lebih baik? Ide-ide ini adalah beberapa ide yang mungkin muncul dalam pikiran setelah menganalisis hasilnya.

Menjalankan evaluasi otomatis kedua

Untuk memfasilitasi perbandingan komprehensif antara dua atau beberapa eksekusi, Anda dapat memilih eksekusi yang diinginkan dan memulai proses perbandingan dalam tampilan Daftar atau Dasbor . Mari kita jalankan evaluasi otomatis lain untuk model dan bandingkan hasilnya.

Catatan

File e2e-automated-evaluation-2.jsonl mensimulasikan himpunan data fiktif di mana diasumsikan bahwa modifikasi dilakukan untuk meningkatkan model, seperti memodifikasi pesan sistem, menyesuaikan filter konten, dan/atau grounding dengan data tambahan.

Tampilan dasbor

Di navigasi kiri, di dalam bagian Alat , pilih Evaluasi.
Buat evaluasi baru dengan mengikuti langkah-langkah dalam latihan Mengonfigurasi dan menjalankan evaluasi otomatis dan beri nama evaluasi automated-eval2. Gunakan file e2e-automated-evaluation-2.jsonl sebagai himpunan data.
Setelah evaluasi selesai, pilih evaluasi automated-eval1 dan automated-eval2 yang berjalan dalam daftar Evaluasi otomatis.
Pilih Bandingkan.
Arahkan mouse ke atas judul automated-eval1 dan pilih Atur sebagai garis besar. Ini menetapkan evaluasi awal sebagai metrik dasar di semua metrik evaluasi. Ini berguna untuk membandingkan sekumpulan metrik dasar dengan evaluasi yang baru dijalankan.
Amati bagaimana metrik mungkin berubah setelah membuat penyesuaian pada permintaan sistem atau menyempurnakan data yang di-grounded.
Agar tampilan sederhana mengamati perbedaan, aktifkan tombol Tampilkan perbedaan . Tombol ini memodifikasi tabel untuk hanya menampilkan baris yang berbeda antara eksekusi garis besar (automated-eval1) dan eksekusi yang dibandingkan (automated-eval2). Fitur ini dapat membantu untuk menyoroti perbedaan antara eksekusi dan menentukan di mana potensi peningkatan atau penyesuaian mungkin diperlukan.

Sekarang ada peningkatan signifikan dalam hasil setelah membuat perubahan pada model. Setelah chatbot disebarkan dan digunakan oleh pelanggan Contoso Camping Store, Anda dianjurkan untuk menjalankan lebih banyak evaluasi dan membandingkan hasil untuk menganalisis perilaku model.

Lanjutkan