Menyetel perintah menggunakan varian di Azure AI Studio

Artikel
05/21/2024

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Dalam artikel ini, Anda mempelajari cara menggunakan varian untuk menyetel perintah dan mengevaluasi performa varian yang berbeda.

Membuat prompt yang baik adalah tugas menantang yang membutuhkan banyak kreativitas, kejelasan, dan relevansi. Prompt yang baik dapat memunculkan output yang diinginkan dari model bahasa yang telah dilatih sebelumnya, sementara prompt yang buruk dapat menyebabkan output yang tidak akurat, tidak relevan, atau tidak masuk akal. Oleh karena itu, perlu untuk menyetel permintaan untuk mengoptimalkan performa dan ketahanannya untuk tugas dan domain yang berbeda.

Varian dapat membantu Anda menguji perilaku model dalam kondisi yang berbeda, seperti kata-kata, pemformatan, konteks, suhu, atau k atas yang berbeda. Anda dapat membandingkan dan menemukan prompt dan konfigurasi terbaik yang memaksimalkan akurasi, keragaman, atau koherensi model.

Varian dalam alur Prompt

Dengan alur perintah, Anda dapat menggunakan varian untuk menyetel perintah Anda. Varian mengacu pada versi tertentu dari simpul alat yang memiliki pengaturan berbeda. Saat ini, varian hanya didukung di alat LLM. Misalnya, di alat LLM, varian baru dapat mewakili konten prompt yang berbeda atau pengaturan koneksi yang berbeda.

Misalkan Anda ingin membuat ringkasan artikel berita. Anda dapat mengatur varian permintaan dan pengaturan yang berbeda seperti ini:

Varian	Prompt	Pengaturan koneksi
Varian 0	`Summary: {{input sentences}}`	Suhu = 1
Varian 1	`Summary: {{input sentences}}`	Suhu = 0,7
Varian 2	`What is the main point of this article? {{input sentences}}`	Suhu = 1
Varian 3	`What is the main point of this article? {{input sentences}}`	Suhu = 0,7

Dengan menggunakan berbagai varian perintah dan pengaturan, Anda dapat mengeksplorasi bagaimana model merespons berbagai input dan output, memungkinkan Anda menemukan kombinasi yang paling cocok untuk kebutuhan Anda.

Manfaat menggunakan varian meliputi:

Tingkatkan kualitas generasi LLM Anda: Dengan membuat beberapa varian node LLM yang sama dengan beragam perintah dan konfigurasi, Anda dapat mengidentifikasi kombinasi optimal yang menghasilkan konten berkualitas tinggi yang selaras dengan kebutuhan Anda.
Menghemat waktu dan upaya: Modifikasi kecil pun pada permintaan dapat menghasilkan hasil yang berbeda. Sangat penting untuk melacak dan membandingkan performa setiap versi prompt. Dengan varian, Anda dapat dengan mudah mengelola versi historis simpul LLM Anda, memfasilitasi pembaruan berdasarkan varian apa pun tanpa risiko melupakan iterasi sebelumnya. Varian menghemat waktu dan upaya Anda dalam mengelola riwayat penyetelan permintaan.
Meningkatkan produktivitas: Varian menyederhanakan proses pengoptimalan untuk simpul LLM, sehingga lebih mudah untuk membuat dan mengelola beberapa variasi. Anda dapat mencapai hasil yang ditingkatkan dalam waktu yang lebih singkat, sehingga meningkatkan produktivitas Anda secara keseluruhan.
Memfasilitasi perbandingan yang mudah: Anda dapat dengan mudah membandingkan hasil yang diperoleh dari varian yang berbeda secara berdampingan, memungkinkan Anda membuat keputusan berbasis data mengenai varian yang menghasilkan hasil terbaik.

Bagaimana cara menyetel perintah menggunakan varian?

Dalam artikel ini, kami menggunakan alur sampel Klasifikasi Web sebagai contoh.

Buka alur sampel dan hapus simpul prepare_examples sebagai awal.
1. Di bawah Alat pilih Alur perintah.
2. Pilih Buat untuk membuka wizard pembuatan alur.
3. Di galeri alur di bawah Jelajahi galeri di kotak "Klasifikasi Web" pilih Kloning.
4. Di tab alur, hapus simpul prepare_examples .
Gunakan perintah berikut sebagai perintah garis besar di simpul classify_with_llm .

Your task is to classify a given url into one of the following types:
Movie, App, Academic, Channel, Profile, PDF or None based on the text content information.
The classification will be based on the url, the webpage text content summary, or both.

For a given URL : {{url}}, and text content: {{text_content}}.
Classify above url to complete the category and indicate evidence.

The output shoule be in this format: {"category": "App", "evidence": "Both"} 
OUTPUT:

Untuk mengoptimalkan alur ini, mungkin ada beberapa cara, dan berikut adalah dua arah:

Untuk simpul classify_with_llm : Saya belajar dari komunitas dan makalah bahwa suhu yang lebih rendah memberikan presisi yang lebih tinggi tetapi lebih sedikit kreativitas dan kejutan, sehingga suhu yang lebih rendah cocok untuk tugas klasifikasi dan juga sedikit bidikan yang dapat meningkatkan performa LLM. Jadi, saya ingin menguji bagaimana alur saya bereaksi ketika suhu diubah dari 1 menjadi 0, dan ketika prompt dengan contoh beberapa bidikan.
Untuk simpul summarize_text_content : Saya juga ingin menguji perilaku alur saya ketika saya mengubah ringkasan dari 100 kata menjadi 300, untuk melihat apakah lebih banyak konten teks dapat membantu meningkatkan performa.

Membuat varian

Pilih tombol Perlihatkan varian di kanan atas simpul LLM. Simpul LLM yang ada variant_0 dan merupakan varian default.
Pilih tombol Kloning di variant_0 untuk menghasilkan variant_1, lalu Anda dapat mengonfigurasi parameter ke nilai yang berbeda atau memperbarui perintah pada variant_1.
Ulangi langkah untuk membuat lebih banyak varian.
Pilih Sembunyikan varian untuk berhenti menambahkan lebih banyak varian. Semua varian dilipat. Varian default ditampilkan untuk simpul.

Untuk simpul classify_with_llm , berdasarkan variant_0:

Buat variant_1 di mana suhu diubah dari 1 menjadi 0.
Buat variant_2 dengan suhu 0 dan Anda dapat menggunakan perintah berikut termasuk contoh beberapa bidikan.

Your task is to classify a given url into one of the following types:
Movie, App, Academic, Channel, Profile, PDF or None based on the text content information.
The classification will be based on the url, the webpage text content summary, or both.

Here are a few examples:

URL: https://play.google.com/store/apps/details?id=com.spotify.music 
Text content: Spotify is a free music and podcast streaming app with millions of songs, albums, and original podcasts. It also offers audiobooks, so users can enjoy thousands of stories. It has a variety of features such as creating and sharing music playlists, discovering new music, and listening to popular and exclusive podcasts. It also has a Premium subscription option which allows users to download and listen offline, and access ad-free music. It is available on all devices and has a variety of genres and artists to choose from. 
OUTPUT: {"category": "App", "evidence": "Both"} 
		
URL: https://www.youtube.com/channel/UC_x5XG1OV2P6uZZ5FSM9Ttw 
Text content: NFL Sunday Ticket is a service offered by Google LLC that allows users to watch NFL games on YouTube. It is available in 2023 and is subject to the terms and privacy policy of Google LLC. It is also subject to YouTube's terms of use and any applicable laws. 
OUTPUT: {"category": "Channel", "evidence": "URL"} 
		
URL: https://arxiv.org/abs/2303.04671 
Text content: Visual ChatGPT is a system that enables users to interact with ChatGPT by sending and receiving not only languages but also images, providing complex visual questions or visual editing instructions, and providing feedback and asking for corrected results. It incorporates different Visual Foundation Models and is publicly available. Experiments show that Visual ChatGPT opens the door to investigating the visual roles of ChatGPT with the help of Visual Foundation Models. 
OUTPUT: {"category": "Academic", "evidence": "Text content"} 
		
URL: https://ab.politiaromana.ro/ 
Text content: There is no content available for this text. 
OUTPUT: {"category": "None", "evidence": "None"}
		
For a given URL : {{url}}, and text content: {{text_content}}.
Classify above url to complete the category and indicate evidence.
OUTPUT:

Untuk simpul summarize_text_content , berdasarkan variant_0, Anda dapat membuat variant_1 di mana 100 words diubah menjadi 300 kata-kata yang diminta.

Sekarang, alur terlihat sebagai berikut, 2 varian untuk simpul summarize_text_content dan 3 untuk simpul classify_with_llm .

Jalankan semua varian dengan satu baris data dan periksa output

Untuk memastikan semua varian dapat berjalan dengan sukses, dan berfungsi seperti yang diharapkan, Anda dapat menjalankan alur dengan satu baris data untuk diuji.

Catatan

Setiap kali Anda hanya dapat memilih satu simpul LLM dengan varian untuk dijalankan sementara simpul LLM lainnya akan menggunakan varian default.

Dalam contoh ini, kami mengonfigurasi varian untuk simpul summarize_text_content dan simpul classify_with_llm , jadi Anda harus menjalankan dua kali untuk menguji semua varian.

Pilih tombol Jalankan di kanan atas.
Pilih simpul LLM dengan varian. Simpul LLM lainnya menggunakan varian default.
Kirim alur yang dijalankan.
Setelah eksekusi alur selesai, Anda dapat memeriksa hasil yang sesuai untuk setiap varian.
Kirim alur lain yang dijalankan dengan simpul LLM lainnya dengan varian, dan periksa output.
Anda dapat mengubah data input lain (misalnya, menggunakan URL halaman Wikipedia) dan mengulangi langkah-langkah di atas untuk menguji varian untuk data yang berbeda.

Mengevaluasi varian

Ketika Anda menjalankan varian dengan beberapa potongan data tunggal dan memeriksa hasilnya dengan mata telanjang, itu tidak dapat mencerminkan kompleksitas dan keragaman data dunia nyata, sementara itu output tidak dapat diukur, jadi sulit untuk membandingkan efektivitas varian yang berbeda, lalu memilih yang terbaik.

Anda dapat mengirimkan eksekusi batch, yang memungkinkan Anda menguji varian dengan sejumlah besar data dan mengevaluasinya dengan metrik, untuk membantu Anda menemukan yang paling cocok.

Pertama, Anda perlu menyiapkan himpunan data, yang cukup representatif dari masalah dunia nyata yang ingin Anda selesaikan dengan alur Prompt. Dalam contoh ini, ini adalah daftar URL dan kebenaran dasar klasifikasinya. Kami menggunakan akurasi untuk mengevaluasi performa varian.
Pilih Evaluasi di kanan atas halaman.
Wizard untuk Eksekusi batch & Evaluasi terjadi. Langkah pertama adalah memilih simpul untuk menjalankan semua variannya.

Untuk menguji cara kerja varian yang berbeda untuk setiap simpul dalam alur, Anda perlu menjalankan eksekusi batch untuk setiap simpul dengan varian satu per satu. Ini membantu Anda menghindari pengaruh varian node lain dan fokus pada hasil varian node ini. Ini mengikuti aturan eksperimen terkontrol, yang berarti Bahwa Anda hanya mengubah satu hal pada satu waktu dan menjaga segala sesuatu yang lain tetap sama.

Misalnya, Anda dapat memilih simpul classify_with_llm untuk menjalankan semua varian, simpul summarize_text_content menggunakan varian default untuk eksekusi batch ini.
Selanjutnya di pengaturan eksekusi Batch, Anda dapat mengatur nama eksekusi batch, memilih runtime, mengunggah data yang disiapkan.
Selanjutnya, di Pengaturan evaluasi, pilih metode evaluasi.

Karena alur ini untuk klasifikasi, Anda dapat memilih metode Evaluasi Akurasi Klasifikasi untuk mengevaluasi akurasi.

Akurasi dihitung dengan membandingkan label yang diprediksi yang ditetapkan oleh alur (prediksi) dengan label data aktual (kebenaran dasar) dan menghitung berapa banyak yang cocok.

Di bagian Pemetaan input evaluasi, Anda perlu menentukan kebenaran dasar berasal dari kolom kategori himpunan data input, dan prediksi berasal dari salah satu output alur: kategori.
Setelah meninjau semua pengaturan, Anda dapat mengirimkan eksekusi batch.
Setelah eksekusi dikirimkan, pilih tautan, buka halaman detail eksekusi.

Catatan

Eksekusi mungkin perlu waktu beberapa menit untuk diselesaikan.

Memvisualisasikan output

Setelah proses batch dan evaluasi selesai, di halaman detail eksekusi, pilih beberapa batch yang berjalan untuk setiap varian, lalu pilih Visualisasikan output. Anda akan melihat metrik 3 varian untuk node classify_with_llm dan output yang diprediksi LLM untuk setiap rekaman data.
Setelah mengidentifikasi varian mana yang terbaik, Anda dapat kembali ke halaman penulisan alur dan mengatur varian tersebut sebagai varian default simpul
Anda juga dapat mengulangi langkah-langkah di atas untuk mengevaluasi varian simpul summarize_text_content .

Sekarang, Anda telah menyelesaikan proses penyetelan prompt menggunakan varian. Anda dapat menerapkan teknik ini ke alur Prompt Anda sendiri untuk menemukan varian terbaik untuk simpul LLM.

Bagikan melalui