Bagikan melalui


Mengirimkan eksekusi batch dan mengevaluasi alur

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Untuk mengevaluasi seberapa baik performa alur Anda dengan himpunan data besar, Anda dapat mengirimkan eksekusi batch dan menggunakan metode evaluasi dalam alur yang diminta.

Dalam artikel ini Anda belajar untuk:

  • Mengirimkan eksekusi batch dan menggunakan metode evaluasi
  • Menampilkan hasil evaluasi dan metrik
  • Memulai babak baru evaluasi
  • Memeriksa riwayat eksekusi batch dan membandingkan metrik
  • Memahami metode evaluasi bawaan
  • Cara untuk meningkatkan performa alur

Prasyarat

Untuk eksekusi batch dan menggunakan metode evaluasi, Anda harus menyiapkan hal berikut:

  • Himpunan data pengujian untuk eksekusi batch. Himpunan data Anda harus dalam salah satu format berikut: .csv, , .tsvatau .jsonl. Data Anda juga harus menyertakan header yang cocok dengan nama input alur Anda. Jika input alur Anda menyertakan struktur kompleks seperti daftar atau kamus, gunakan jsonl format untuk mewakili data Anda.
  • Sesi komputasi yang tersedia untuk menjalankan eksekusi batch Anda. Sesi komputasi adalah sumber daya berbasis cloud yang menjalankan alur Anda dan menghasilkan output. Untuk mempelajari selengkapnya tentang sesi komputasi, lihat sesi komputasi.

Mengirimkan eksekusi batch dan menggunakan metode evaluasi

Eksekusi batch memungkinkan Anda menjalankan alur dengan himpunan data besar dan menghasilkan output untuk setiap baris data. Anda juga dapat memilih metode evaluasi untuk membandingkan output alur Anda dengan kriteria dan tujuan tertentu. Metode evaluasi adalah jenis alur khusus yang menghitung metrik untuk output alur Anda berdasarkan aspek yang berbeda. Eksekusi evaluasi dijalankan untuk menghitung metrik saat dikirimkan dengan eksekusi batch.

Untuk memulai eksekusi batch dengan evaluasi, Anda dapat memilih tombol Evaluasi - Evaluasi kustom. Dengan memilih Evaluasi kustom, Anda dapat mengirimkan eksekusi batch dengan metode evaluasi atau mengirimkan eksekusi batch tanpa evaluasi untuk alur Anda.

Cuplikan layar ini memperlihatkan tombol eksekusi batch dan pemicu evaluasi

Pertama, Anda diminta untuk memberi batch Anda menjalankan nama yang deskriptif dan dapat dikenali. Anda juga dapat menulis deskripsi dan menambahkan tag (pasangan kunci-nilai) ke eksekusi batch Anda. Setelah Anda menyelesaikan konfigurasi, pilih Berikutnya untuk melanjutkan.

Cuplikan layar ini memperlihatkan pengaturan dasar evaluasi kustom

Kedua, Anda perlu memilih atau mengunggah himpunan data yang ingin Anda uji alurnya. Anda juga perlu memilih sesi komputasi yang tersedia untuk menjalankan eksekusi batch ini.

Alur perintah juga mendukung pemetaan input alur Anda ke kolom data tertentu di himpunan data Anda. Ini berarti Anda dapat menetapkan kolom ke input tertentu. Anda dapat menetapkan kolom ke input dengan mereferensikan dengan ${data.XXX} format. Jika Anda ingin menetapkan nilai konstanta ke input, Anda dapat langsung mengetikkan nilai tersebut.

Cuplikan layar ini memperlihatkan pengaturan eksekusi batch evaluasi kustom

Kemudian, pada langkah berikutnya, Anda dapat memutuskan untuk menggunakan metode evaluasi untuk memvalidasi performa alur ini. Anda dapat langsung memilih tombol Berikutnya untuk melewati langkah ini jika Anda tidak ingin menerapkan metode evaluasi apa pun atau menghitung metrik apa pun. Jika tidak, jika Anda ingin menjalankan eksekusi batch dengan evaluasi sekarang, Anda dapat memilih satu atau beberapa metode evaluasi. Evaluasi dimulai setelah eksekusi batch selesai. Anda juga dapat memulai putaran evaluasi lain setelah proses batch selesai. Untuk mempelajari selengkapnya tentang cara memulai babak evaluasi baru, lihat Memulai babak evaluasi baru.

Cuplikan layar ini menunjukkan cara memilih metode evaluasi.

Di bagian pemetaan input langkah berikutnya, Anda perlu menentukan sumber data input yang diperlukan untuk metode evaluasi. Misalnya, kolom kebenaran dasar dapat berasal dari himpunan data. Secara default, evaluasi menggunakan himpunan data yang sama dengan himpunan data pengujian yang disediakan untuk eksekusi yang diuji. Namun, jika label yang sesuai atau nilai kebenaran dasar target berada dalam himpunan data yang berbeda, Anda dapat dengan mudah beralih ke yang itu.

  • Jika sumber data berasal dari output eksekusi Anda, sumber ditunjukkan sebagai ${run.output.[ OutputName]}
  • Jika sumber data berasal dari himpunan data pengujian Anda, sumber ditunjukkan sebagai ${data.[ ColumnName]}

Cuplikan layar ini menunjukkan cara mengonfigurasi pengaturan evaluasi, termasuk pemetaan input dan koneksi.

Catatan

Jika evaluasi Anda tidak memerlukan data dari himpunan data, Anda tidak perlu mereferensikan kolom himpunan data apa pun di bagian pemetaan input, yang menunjukkan pemilihan himpunan data adalah konfigurasi opsional. Pemilihan himpunan data tidak akan memengaruhi hasil evaluasi.

Jika metode evaluasi menggunakan Model Bahasa Besar (LLM) untuk mengukur performa respons alur, Anda juga diharuskan mengatur koneksi untuk node LLM dalam metode evaluasi.

Kemudian Anda dapat memilih Berikutnya untuk meninjau pengaturan Anda dan memilih Kirim untuk memulai eksekusi batch dengan evaluasi.

Menampilkan hasil evaluasi dan metrik

Setelah pengiriman, Anda dapat menemukan eksekusi batch yang dikirimkan di tab daftar eksekusi di halaman alur perintah. Pilih eksekusi untuk menavigasi ke halaman hasil eksekusi.

Di halaman detail eksekusi, Anda dapat memilih Detail untuk memeriksa detail eksekusi batch ini.

Output

Hasil dan jejak dasar

Ini pertama-tama akan mengarahkan Anda ke tab Output untuk melihat input dan output baris demi baris. Halaman tab output menampilkan daftar tabel hasil, termasuk ID baris, input, output, status, metrik sistem, dan waktu yang dibuat.

Untuk setiap baris, memilih Lihat jejak memungkinkan Anda mengamati dan men-debug kasus pengujian tertentu di halaman terperinci jejaknya.

Cuplikan layar ini menunjukkan output eksekusi batch.

 Cuplikan layar detail pelacakan.

Menambahkan hasil evaluasi dan jejak

Memilih Tambahkan output evaluasi memungkinkan Anda memilih eksekusi evaluasi terkait dan Anda melihat kolom yang ditambahkan di akhir tabel yang memperlihatkan hasil evaluasi untuk setiap baris data. Beberapa output evaluasi dapat ditambahkan untuk perbandingan.

Cuplikan layar output eksekusi batch untuk menambahkan output evaluasi.

Anda dapat melihat metrik evaluasi terbaru di panel Gambaran Umum kiri.

Gambaran umum penting

Di sisi kanan, Gambaran Umum menawarkan informasi keseluruhan tentang eksekusi, seperti jumlah per eksekusi titik data, token total, dan durasi eksekusi.

Metrik agregat eksekusi evaluasi terbaru diperlihatkan di sini secara default, Anda dapat memilih Lihat eksekusi evaluasi untuk melompat untuk melihat eksekusi evaluasi itu sendiri.

Cuplikan layar informasi ringkasan eksekusi batch di halaman output.

Gambaran umum dapat diperluas dan diciutkan di sini, dan Anda dapat memilih Lihat informasi lengkap yang akan mengarahkan Anda ke tab Gambaran Umum di samping tab Output, di mana berisi informasi yang lebih rinci dari eksekusi ini.

Memulai babak baru evaluasi

Jika Anda telah menyelesaikan eksekusi batch, Anda dapat memulai putaran evaluasi lain untuk mengirimkan eksekusi evaluasi baru untuk menghitung metrik untuk output tanpa menjalankan alur Anda lagi. Ini berguna dan dapat menghemat biaya Anda untuk menjalankan ulang alur Anda saat:

  • Anda tidak memilih metode evaluasi untuk menghitung metrik saat mengirimkan eksekusi batch, dan memutuskan untuk melakukannya sekarang.
  • Anda telah menggunakan metode evaluasi untuk menghitung metrik. Anda dapat memulai putaran evaluasi lain untuk menghitung metrik lain.
  • Eksekusi evaluasi Anda gagal tetapi alur Anda berhasil menghasilkan output. Anda dapat mengirimkan evaluasi Anda lagi.

Anda dapat masuk ke tab Eksekusi alur perintah. Kemudian buka halaman detail eksekusi batch dan pilih Evaluasi untuk memulai putaran evaluasi lain.

Cuplikan layar ini menunjukkan cara memulai evaluasi baru berdasarkan eksekusi batch.

Setelah menyiapkan konfigurasi, Anda dapat memilih "Kirim" untuk putaran evaluasi baru ini. Setelah pengiriman, Anda akan dapat melihat rekaman baru di daftar eksekusi alur perintah. Setelah proses evaluasi selesai, demikian pula, Anda dapat memeriksa hasil evaluasi di tab "Output" dari panel detail eksekusi batch. Anda perlu memilih eksekusi evaluasi baru untuk melihat hasilnya.

Untuk mempelajari selengkapnya tentang metrik yang dihitung oleh metode evaluasi bawaan, navigasikan untuk memahami metode evaluasi bawaan.

Gambaran Umum

Memilih tab Gambaran Umum memperlihatkan informasi komprehensif tentang eksekusi, termasuk properti eksekusi, himpunan data input, himpunan data output, tag, dan deskripsi.

Log

Memilih tab Log memungkinkan Anda melihat log eksekusi, yang dapat berguna untuk penelusuran kesalahan eksekusi secara mendetail. Anda dapat mengunduh file log ke komputer lokal Anda.

Snapshot

Memilih tab Rekam Jepret memperlihatkan kepada Anda rekam jepret yang dijalankan. Anda dapat melihat DAG alur Anda. Selain itu, Anda memiliki opsi untuk Mengkloningnya untuk membuat alur baru. Anda juga dapat Menyebarkannya sebagai titik akhir online.

Cuplikan layar rekam jepret eksekusi batch.

Memeriksa riwayat eksekusi batch dan membandingkan metrik

Dalam beberapa skenario, Anda memodifikasi alur untuk meningkatkan performanya. Anda dapat mengirimkan lebih dari satu eksekusi batch untuk membandingkan performa alur Anda dengan versi yang berbeda. Anda juga dapat membandingkan metrik yang dihitung dengan metode evaluasi yang berbeda untuk melihat mana yang lebih cocok untuk alur Anda.

Untuk memeriksa riwayat eksekusi batch alur Anda, Anda dapat memilih tombol Tampilkan eksekusi batch halaman alur Anda. Anda melihat daftar eksekusi batch yang telah Anda kirimkan untuk alur ini.

Cuplikan layar ini memperlihatkan tombol visualisasikan output di halaman daftar eksekusi.

Anda dapat memilih pada setiap eksekusi batch untuk memeriksa detailnya. Anda juga dapat memilih beberapa eksekusi batch dan memilih pada Visualisasikan output untuk membandingkan metrik dan output dari eksekusi batch.

Di panel "Visualisasikan output" tabel Jalankan & metrik memperlihatkan informasi eksekusi yang dipilih dengan sorotan. Eksekusi lain yang mengambil output dari eksekusi yang dipilih sebagai input juga tercantum.

Dalam tabel "Output", Anda dapat membandingkan eksekusi batch yang dipilih dengan setiap baris sampel. Dengan memilih ikon "visualisasi mata" di tabel "Jalankan & metrik", output dari eksekusi tersebut akan ditambahkan ke eksekusi dasar yang sesuai.

Memahami metode evaluasi bawaan

Dalam alur perintah, kami menyediakan beberapa metode evaluasi bawaan untuk membantu Anda mengukur performa output alur Anda. Setiap metode evaluasi menghitung metrik yang berbeda. Lihat tabel berikut untuk daftar metode evaluasi bawaan dan deskripsinya.

Metode Evaluasi Metrik Deskripsi Koneksi Diperlukan Input yang Diperlukan Nilai Skor
Evaluasi Akurasi Klasifikasi Akurasi Mengukur performa sistem klasifikasi dengan membandingkan outputnya dengan kebenaran dasar. No prediksi, kebenaran dasar dalam rentang [0, 1].
Evaluasi Pairwise Skor Relevansi QnA Skor, menang/kalah Menilai kualitas jawaban yang dihasilkan oleh sistem jawaban atas pertanyaan. Ini melibatkan penetapan skor relevansi untuk setiap jawaban berdasarkan seberapa baik cocok dengan pertanyaan pengguna, membandingkan jawaban yang berbeda dengan jawaban dasar, dan menggabungkan hasil untuk menghasilkan metrik seperti tingkat kemenangan rata-rata dan skor relevansi. Ya pertanyaan, jawaban (tidak ada kebenaran dasar atau konteks) Skor: 0-100, menang/kalah: 1/0
Evaluasi Groundedness QnA Groundedness Mengukur cara membumikan prediksi jawaban model di sumber input. Bahkan jika respons LLM benar, jika tidak dapat diverifikasi terhadap sumber, maka tidak teralihkan. Ya pertanyaan, jawaban, konteks (tidak ada kebenaran dasar) 1 sampai 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
Evaluasi Kesamaan GPT QnA Kesamaan GPT Mengukur kesamaan antara jawaban kebenaran dasar yang disediakan pengguna dan jawaban yang diprediksi model menggunakan Model GPT. Ya pertanyaan, jawaban, kebenaran dasar (konteks tidak diperlukan) dalam rentang [0, 1].
Evaluasi Relevansi QnA Relevansi Mengukur seberapa relevan jawaban yang diprediksi model terhadap pertanyaan yang diajukan. Ya pertanyaan, jawaban, konteks (tidak ada kebenaran dasar) 1 sampai 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
Evaluasi Koherensi QnA Koherensi Mengukur kualitas semua kalimat dalam jawaban model yang diprediksi dan bagaimana kalimat tersebut cocok secara alami. Ya pertanyaan, jawaban (tidak ada kebenaran dasar atau konteks) 1 sampai 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik.
Evaluasi Kefasihan QnA Kelancaran Mengukur seberapa terprogram dan linguistik memperbaiki prediksi jawaban model. Ya pertanyaan, jawaban (tidak ada kebenaran dasar atau konteks) 1 hingga 5, dengan 1 menjadi yang terburuk dan 5 menjadi yang terbaik
Evaluasi skor QnA f1 f-measure Mengukur rasio jumlah kata bersama antara prediksi model dan kebenaran dasar. No pertanyaan, jawaban, kebenaran dasar (konteks tidak diperlukan) dalam rentang [0, 1].
Evaluasi Kesamaan QnA Ada Ada Kesamaan Menghitung penyematan tingkat kalimat (dokumen) menggunakan ADA embeddings API untuk kebenaran dasar dan prediksi. Kemudian menghitung kesamaan kosinus di antara mereka (satu angka titik mengambang) Ya pertanyaan, jawaban, kebenaran dasar (konteks tidak diperlukan) dalam rentang [0, 1].

Cara untuk meningkatkan performa alur

Setelah memeriksa metode bawaan dari evaluasi, Anda dapat mencoba meningkatkan performa alur Anda dengan:

  • Periksa data output untuk men-debug potensi kegagalan alur Anda.
  • Ubah alur Anda untuk meningkatkan performanya. Ini termasuk tetapi tidak terbatas pada:
    • Ubah perintah
    • Mengubah pesan sistem
    • Mengubah parameter alur
    • Mengubah logika alur

Untuk mempelajari selengkapnya tentang cara membuat permintaan yang dapat mencapai tujuan Anda, lihat Pengenalan untuk meminta rekayasa, Teknik rekayasa prompt, dan Kerangka kerja pesan sistem dan rekomendasi templat untuk Model Bahasa Besar (LLM).

Dalam dokumen ini, Anda mempelajari cara mengirimkan eksekusi batch dan menggunakan metode evaluasi bawaan untuk mengukur kualitas output alur Anda. Anda juga mempelajari cara melihat hasil evaluasi dan metrik, dan cara memulai putaran evaluasi baru dengan metode atau subset varian yang berbeda. Kami berharap dokumen ini membantu Anda meningkatkan performa alur dan mencapai tujuan Anda dengan alur yang cepat.

Langkah berikutnya