Bagikan melalui


Mengevaluasi perintah secara manual di taman bermain Azure AI Studio

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Ketika Anda mulai dengan rekayasa yang cepat, Anda harus menguji input yang berbeda satu per satu untuk mengevaluasi efektivitas prompt bisa sangat intensif waktu. Ini karena penting untuk memeriksa apakah filter konten berfungsi dengan tepat, apakah respons akurat, dan banyak lagi.

Agar proses ini lebih sederhana, Anda dapat menggunakan evaluasi manual di Azure AI Studio, alat evaluasi yang memungkinkan Anda untuk terus melakukan iterasi dan mengevaluasi permintaan terhadap data pengujian Anda dalam satu antarmuka. Anda juga dapat menilai output secara manual, respons model, untuk membantu Anda mendapatkan keyakinan pada permintaan Anda.

Evaluasi manual dapat membantu Anda mulai memahami seberapa baik performa permintaan Anda dan melakukan iterasi pada perintah Anda untuk memastikan Anda mencapai tingkat kepercayaan diri yang Anda inginkan.

Dalam artikel ini Anda belajar untuk:

  • Hasilkan hasil evaluasi manual Anda
  • Beri peringkat respons model Anda
  • Iterasi pada permintaan Anda dan evaluasi ulang
  • Menyimpan dan membandingkan hasil
  • Mengevaluasi dengan metrik bawaan

Prasyarat

Untuk menghasilkan hasil evaluasi manual, Anda harus menyiapkan hal berikut:

  • Himpunan data pengujian dalam salah satu format ini: csv atau jsonl. Jika Anda tidak memiliki himpunan data yang tersedia, kami juga mengizinkan Anda untuk memasukkan data secara manual dari UI.

  • Penyebaran salah satu model ini: model GPT 3.5, model GPT 4, atau model Davinci. Untuk mempelajari selengkapnya tentang cara membuat penyebaran, lihat Menyebarkan model.

Catatan

Evaluasi manual hanya didukung untuk model Azure OpenAI saat ini untuk jenis tugas obrolan dan penyelesaian.

Hasilkan hasil evaluasi manual Anda

Dari Playground, pilih Evaluasi manual untuk memulai proses meninjau respons model secara manual berdasarkan data pengujian dan perintah Anda. Perintah Anda secara otomatis dialihkan ke evaluasi Manual Anda dan sekarang Anda hanya perlu menambahkan data pengujian untuk mengevaluasi permintaan terhadap.

Ini dapat dilakukan secara manual menggunakan kotak teks di kolom Input .

Anda juga dapat Mengimpor Data untuk memilih salah satu himpunan data yang ada sebelumnya di proyek Anda atau mengunggah himpunan data yang dalam format CSV atau JSONL. Setelah memuat data, Anda akan diminta untuk memetakan kolom dengan tepat. Setelah Anda selesai dan pilih Impor, data diisi dengan tepat di kolom di bawah ini.

Cuplikan layar menghasilkan hasil evaluasi manual.

Catatan

Anda dapat menambahkan sebanyak 50 baris input ke evaluasi manual Anda. Jika data pengujian Anda memiliki lebih dari 50 baris input, kami akan mengunggah 50 pertama di kolom input.

Sekarang setelah data Anda ditambahkan, Anda dapat Menjalankan untuk mengisi kolom output dengan respons model.

Beri peringkat respons model Anda

Anda dapat memberikan peringkat jempol ke atas atau ke bawah untuk setiap respons untuk menilai output prompt. Berdasarkan peringkat yang Anda berikan, Anda dapat melihat skor respons ini dalam ringkasan sekilas.

Cuplikan layar skor respons dalam ringkasan sekilas.

Iterasi pada permintaan Anda dan evaluasi ulang

Berdasarkan ringkasan, Anda mungkin ingin membuat perubahan pada perintah Anda. Anda dapat menggunakan kontrol perintah di atas untuk mengedit penyiapan perintah Anda. Ini dapat memperbarui pesan sistem, mengubah model, atau mengedit parameter.

Setelah melakukan pengeditan, Anda dapat memilih untuk menjalankan ulang semua untuk memperbarui seluruh tabel atau fokus pada menjalankan ulang baris tertentu yang tidak memenuhi harapan Anda untuk pertama kalinya.

Menyimpan dan membandingkan hasil

Setelah mengisi hasil, Anda dapat Menyimpan hasil untuk berbagi kemajuan dengan tim Anda atau untuk melanjutkan evaluasi manual anda dari tempat yang anda tinggalkan nanti.

Cuplikan layar hasil penyimpanan.

Anda juga dapat membandingkan peringkat jempol ke atas dan ke bawah di berbagai evaluasi manual Anda dengan menyimpannya dan melihatnya di tab Evaluasi di bawah Evaluasi manual.

Langkah berikutnya

Pelajari selengkapnya tentang cara mengevaluasi aplikasi AI generatif Anda:

Pelajari selengkapnya tentang teknik mitigasi bahaya.