Bagikan melalui


Kapan menggunakan penyempurnaan Azure OpenAI

Saat memutuskan apakah penyempurnaan adalah solusi yang tepat untuk dijelajahi untuk kasus penggunaan tertentu, ada beberapa istilah utama yang sangat membantu untuk terbiasa dengan:

  • Prompt Engineering adalah teknik yang melibatkan perancangan permintaan untuk model pemrosesan bahasa alami. Proses ini meningkatkan akurasi dan relevansi dalam respons, mengoptimalkan performa model.
  • Pengambilan Augmented Generation (RAG) meningkatkan performa Model Bahasa Besar (LLM) dengan mengambil data dari sumber eksternal dan memasukkannya ke dalam perintah. RAG memungkinkan bisnis untuk mencapai solusi yang disesuaikan sambil mempertahankan relevansi data dan mengoptimalkan biaya.
  • Penyempurnaan melatih kembali Model Bahasa Besar yang ada menggunakan contoh data, menghasilkan Model Bahasa Besar "kustom" baru yang telah dioptimalkan menggunakan contoh yang disediakan.

Apa itu Fine Tuning dengan Azure OpenAI?

Ketika kita berbicara tentang penyetelan halus, kita benar-benar berarti diawasi penyempurnaan bukan pra-pelatihan berkelanjutan atau Pembelajaran Penguatan melalui Umpan Balik Manusia (RLHF). Penyempurnaan yang diawasi mengacu pada proses pelatihan ulang model yang telah dilatih sebelumnya pada himpunan data tertentu, biasanya untuk meningkatkan performa model pada tugas tertentu atau memperkenalkan informasi yang tidak diwakili dengan baik ketika model dasar awalnya dilatih.

Penyempurnaan adalah teknik canggih yang membutuhkan keahlian untuk digunakan dengan tepat. Pertanyaan di bawah ini akan membantu Anda mengevaluasi apakah Anda siap untuk penyempurnaan, dan seberapa baik Anda telah memikirkan prosesnya. Anda dapat menggunakan ini untuk memandu langkah Anda berikutnya atau mengidentifikasi pendekatan lain yang mungkin lebih tepat.

Mengapa Anda ingin menyempurnakan model?

  • Anda harus dapat mengarteklasi kasus penggunaan tertentu dengan jelas untuk menyempurnakan dan mengidentifikasi model yang Anda harapkan untuk menyempurnakan.
  • Kasus penggunaan yang baik untuk penyempurnaan termasuk mengarahkan model ke konten output dalam gaya, nada, atau format tertentu dan disesuaikan, atau skenario di mana informasi yang diperlukan untuk mengarahkan model terlalu panjang atau kompleks agar pas ke jendela prompt.

Tanda-tanda umum yang mungkin belum Anda siap untuk penyempurnaan:

  • Tidak ada kasus penggunaan yang jelas untuk penyetelan halus, atau ketidakmampuan untuk mengarkulasi lebih dari "Saya ingin membuat model lebih baik".
  • Jika Anda mengidentifikasi biaya sebagai motivator utama Anda, lanjutkan dengan hati-hati. Penyempurnaan dapat mengurangi biaya untuk kasus penggunaan tertentu dengan mempersingkat perintah atau memungkinkan Anda menggunakan model yang lebih kecil tetapi ada biaya di muka yang lebih tinggi untuk pelatihan dan Anda harus membayar untuk menghosting model kustom Anda sendiri. Lihat halaman harga untuk informasi selengkapnya tentang biaya penyempurnaan Azure OpenAI.
  • Jika Anda ingin menambahkan pengetahuan domain ke model, Anda harus mulai dengan pengambilan augmented generation (RAG) dengan fitur seperti Azure OpenAI pada data atau penyematan Anda. Seringkali, ini adalah opsi yang lebih murah, lebih mudah beradaptasi, dan berpotensi lebih efektif tergantung pada kasus penggunaan dan data.

Apa yang telah Anda coba sejauh ini?

Penyempurnaan adalah kemampuan tingkat lanjut, bukan titik awal untuk perjalanan AI generatif Anda. Anda harus sudah terbiasa dengan dasar-dasar penggunaan Model Bahasa Besar (LLM). Anda harus mulai dengan mengevaluasi performa model dasar dengan rekayasa cepat dan/atau Pengambilan Augmented Generation (RAG) untuk mendapatkan garis besar performa.

Memiliki garis besar untuk performa tanpa penyempurnaan sangat penting untuk mengetahui apakah penyempurnaan telah meningkatkan performa model atau tidak. Menyempurnakan dengan data yang buruk membuat model dasar lebih buruk, tetapi tanpa garis besar, sulit untuk mendeteksi regresi.

Jika Anda siap untuk menyempurnakan Anda:

  • Harus dapat menunjukkan bukti dan pengetahuan tentang Prompt Engineering dan pendekatan berbasis RAG.
  • Mampu berbagi pengalaman dan tantangan spesifik dengan teknik selain penyempurnaan yang sudah dicoba untuk kasus penggunaan Anda.
  • Perlu memiliki penilaian kuantitatif performa dasar, jika memungkinkan.

Tanda-tanda umum yang mungkin belum Anda siap untuk penyempurnaan:

  • Dimulai dengan penyempurnaan tanpa menguji teknik lain.
  • Pengetahuan atau pemahaman yang tidak mencukup tentang bagaimana penyempurnaan berlaku khusus untuk Model Bahasa Besar (LLM).
  • Tidak ada pengukuran tolok ukur untuk menilai penyempurnaan terhadap.

Apa yang tidak berfungsi dengan pendekatan alternatif?

Memahami di mana rekayasa prompt jatuh pendek harus memberikan panduan tentang penyempurnaan Anda. Apakah model dasar gagal pada kasus atau pengecualian edge? Apakah model dasar tidak secara konsisten memberikan output dalam format yang tepat, dan Anda tidak dapat memasukkan contoh yang cukup di jendela konteks untuk memperbaikinya?

Contoh kegagalan dengan model dasar dan rekayasa prompt akan membantu Anda mengidentifikasi data yang perlu mereka kumpulkan untuk penyempurnaan, dan bagaimana Anda harus mengevaluasi model yang disempurnakan.

Berikut adalah contoh: Pelanggan ingin menggunakan GPT-3.5-Turbo untuk mengubah pertanyaan bahasa alami menjadi kueri dalam bahasa kueri tertentu yang tidak standar. Mereka memberikan panduan dalam perintah ("Selalu kembalikan GQL") dan menggunakan RAG untuk mengambil skema database. Namun, sintaksnya tidak selalu benar dan sering gagal untuk kasus edge. Mereka mengumpulkan ribuan contoh pertanyaan bahasa alami dan kueri yang setara untuk database mereka, termasuk kasus di mana model telah gagal sebelumnya - dan menggunakan data tersebut untuk menyempurnakan model. Menggabungkan model baru mereka yang disempurnakan dengan permintaan dan pengambilan yang direkayasa membawa akurasi output model hingga standar yang dapat diterima untuk digunakan.

Jika Anda siap untuk menyempurnakan Anda:

  • Memiliki contoh yang jelas tentang bagaimana Anda telah mendekati tantangan dalam pendekatan alternatif dan apa yang telah diuji sebagai resolusi yang mungkin untuk meningkatkan performa.
  • Anda telah mengidentifikasi kekurangan menggunakan model dasar, seperti performa yang tidak konsisten pada kasus tepi, ketidakmampuan untuk memasukkan cukup sedikit perintah bidikan di jendela konteks untuk mengarahkan model, latensi tinggi, dll.

Tanda-tanda umum yang mungkin belum Anda siap untuk penyempurnaan:

  • Pengetahuan yang tidak mencukup dari model atau sumber data.
  • Ketidakmampuan untuk menemukan data yang tepat untuk melayani model.

Data apa yang akan Anda gunakan untuk penyempurnaan?

Bahkan dengan kasus penggunaan yang bagus, penyempurnaan hanya sebagus kualitas data yang dapat Anda berikan. Anda harus bersedia menginvestasikan waktu dan upaya untuk membuat pekerjaan penyempurnaan. Model yang berbeda akan memerlukan volume data yang berbeda tetapi Anda sering kali harus dapat menyediakan data kurasi berkualitas tinggi dalam jumlah yang cukup besar.

Poin penting lainnya bahkan dengan data berkualitas tinggi jika data Anda tidak dalam format yang diperlukan untuk penyempurnaan, Anda harus menerapkan sumber daya rekayasa untuk memformat data dengan benar.

Data Babbage-002
Davinci-002
GPT-3.5-Turbo
GPT-4o & GPT-4o mini
GPT-4
Volume Ribuan Contoh Ribuan Contoh
Format Perintah/Penyelesaian Obrolan Percakapan

Jika Anda siap untuk menyempurnakan Anda:

  • Telah mengidentifikasi himpunan data untuk penyempurnaan.
  • Himpunan data dalam format yang sesuai untuk pelatihan.
  • Beberapa tingkat kurasi telah digunakan untuk memastikan kualitas himpunan data.

Tanda-tanda umum yang mungkin belum Anda siap untuk penyempurnaan:

  • Himpunan data belum diidentifikasi.
  • Format himpunan data tidak cocok dengan model yang ingin Anda sesuaikan.

Bagaimana Anda akan mengukur kualitas model yang disempurnakan?

Tidak ada satu jawaban yang tepat untuk pertanyaan ini, tetapi Anda harus memiliki tujuan yang ditentukan dengan jelas untuk seperti apa kesuksesan dengan penyempurnaan. Idealnya, ini seharusnya tidak hanya kualitatif tetapi harus mencakup langkah-langkah kuantitatif keberhasilan seperti menggunakan sekumpulan data holdout untuk validasi, serta pengujian penerimaan pengguna atau A/B yang menguji model yang disempurnakan terhadap model dasar.

Langkah berikutnya