Gunakan mode Magang untuk melatih Personalisasi tanpa memengaruhi aplikasi Anda yang sudah ada

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Saat menyebarkan sumber daya Personalizer baru, sumber daya tersebut diinisialisasi dengan model yang tidak terlatih, atau kosong. Artinya, itu belum belajar dari data apa pun dan oleh karena itu tidak akan berkinerja baik dalam praktiknya. Ini dikenal sebagai masalah "cold start" dan diselesaikan dari waktu ke waktu dengan melatih model dengan data nyata dari lingkungan produksi Anda. Mode Magang adalah perilaku pembelajaran yang membantu mengurangi masalah "cold start", dan memungkinkan Anda untuk mendapatkan kepercayaan pada model sebelum membuat keputusan dalam produksi, semuanya tanpa memerlukan perubahan kode apa pun.

Apa itu mode Magang?

Mirip dengan bagaimana seorang magang dapat mempelajari kerajinan dengan mengamati seorang ahli, mode Magang memungkinkan Personalizer untuk belajar dengan mengamati keputusan yang dibuat oleh logika aplikasi Anda saat ini. Model Personalizer melatih dengan meniru output pilihan yang sama seperti aplikasi. Dengan setiap panggilan Rank API, Personalizer dapat belajar tanpa memengaruhi logika dan hasil yang ada. Metrik, tersedia dari portal Microsoft Azure dan API, membantu Anda memahami performa saat model belajar. Secara khusus, seberapa baik Personalisasi cocok dengan logika Anda yang ada (juga dikenal sebagai kebijakan dasar).

Setelah Personalizer dapat secara wajar mencocokkan logika yang ada 60-80% dari waktu, Anda dapat mengubah perilaku dari mode Magang ke mode Online. Pada saat itu, Personalizer mengembalikan tindakan terbaik di RANK API sebagaimana ditentukan oleh model yang mendasar dan dapat mempelajari cara membuat keputusan yang lebih baik daripada kebijakan garis besar Anda.

Mengapa menggunakan mode Magang?

Mode magang menyediakan cara bagi model Anda untuk meniru logika keputusan yang ada sebelum membuat keputusan online yang digunakan oleh aplikasi Anda. Ini membantu mengurangi masalah cold start yang disebutkan di atas dan memberi Anda lebih banyak kepercayaan pada layanan Personalizer dan jaminan bahwa data yang dikirim ke Personalizer berharga untuk melatih model. Ini dilakukan tanpa memperkirakan atau memengaruhi lalu lintas online dan pengalaman pelanggan Anda.

Dua alasan utama untuk menggunakan mode Magang adalah:

  • Mengurangi Cold Start: Mode Magang membantu mengurangi biaya pelatihan model "baru" dalam produksi dengan belajar tanpa perlu membuat keputusan yang tidak diformat. Model ini belajar menilik logika aplikasi Anda yang ada.
  • Memvalidasi Fitur Tindakan dan Konteks: Fitur Konteks dan Tindakan mungkin tidak memadai, tidak akurat, atau direkayasa secara suboptimal. Jika ada terlalu sedikit fitur, terlalu banyak, salah, berisik, atau cacat, Personalisasi akan mengalami kesulitan melatih model berkinerja baik. Melakukan evaluasi fitur saat dalam mode Magang, memungkinkan Anda untuk menemukan seberapa efektif fitur tersebut dalam melatih Personalizer dan dapat mengidentifikasi area untuk meningkatkan kualitas fitur.

Kapan sebaiknya Anda menggunakan mode Magang?

Gunakan mode Magang untuk melatih Personalisasi guna meningkatkan efektivitasnya melalui skenario berikut sambil membiarkan pengalaman pengguna Anda tidak terpengaruh oleh Personalisasi:

  • Anda menerapkan Personalizer dalam skenario baru.
  • Anda telah membuat perubahan besar pada fitur Konteks atau Tindakan.

Namun, mode Magang bukanlah cara yang efektif untuk mengukur dampak yang dapat ditimbulkan Personalizer pada peningkatan hadiah rata-rata atau KPI bisnis Anda. Ini hanya dapat mengevaluasi seberapa baik layanan mempelajari logika Anda yang ada mengingat data saat ini yang Anda berikan. Untuk mengukur seberapa efektif Personalizer dalam memilih tindakan terbaik untuk setiap panggilan Peringkat, Personalizer harus dalam mode Online, atau Anda dapat menggunakan evaluasi Offline selama periode waktu ketika Personalizer berada dalam mode Online.

Siapa yang harus menggunakan mode Magang?

Mode magang berguna untuk pengembang, ilmuwan data, dan pengambil keputusan bisnis:

  • Pengembang dapat menggunakan mode Magang untuk memastikan API Peringkat dan Hadiah diimplementasikan dengan benar dalam aplikasi, dan bahwa fitur yang dikirim ke Personalizer bebas dari kesalahan dan kesalahan umum. Pelajari selengkapnya tentang membuat fitur Konteks dan Tindakan yang baik.

  • Ilmuwan data dapat menggunakan mode Magang untuk memvalidasi bahwa fitur tersebut efektif untuk melatih model Personalizer. Artinya, fitur berisi informasi berguna yang memungkinkan Personalizer mempelajari logika keputusan yang ada.

  • Pembuat Keputusan Bisnis dapat menggunakan mode Magang untuk menilai potensi Personalizer untuk meningkatkan hasil (yaitu, hadiah) dibandingkan dengan logika bisnis yang ada. Secara khusus, apakah Personalizer dapat belajar dari data yang disediakan atau tidak sebelum masuk ke mode Online. Ini memungkinkan mereka untuk membuat keputusan berdasarkan informasi tentang memengaruhi pengalaman pengguna, di mana pendapatan nyata dan kepuasan pengguna dipertaruhkan.

Membandingkan Perilaku - Mode Magang dan Mode Online

Belajar saat dalam mode Magang berbeda dari mode Online dengan cara berikut.

Luas Mode magang Mode online
Dampak pada Pengalaman Pengguna Pengalaman pengguna dan metrik bisnis tidak akan berubah. Personalizer dilatih dengan mengamati tindakan dasar logika aplikasi Anda saat ini, tanpa memengaruhinya. Pengalaman pengguna Anda dapat berubah saat keputusan dibuat oleh Personalizer dan bukan tindakan garis besar Anda.
Kecepatan pembelajaran Personalizer akan belajar lebih lambat saat dalam mode Magang dibandingkan dengan belajar dalam mode Online. Mode Magang hanya dapat belajar dengan mengamati hadiah yang diperoleh oleh tindakan default Anda tanpa eksplorasi, yang membatasi berapa banyak hal yang dapat dipelajari Personalizer. Belajar lebih cepat karena dapat mengeksploitasi tindakan terbaik dari model saat ini dan menjelajahi tindakan lain untuk hasil yang berpotensi lebih baik.
Efektivitas Pembelajaran "Langit-Langit" Personalizer hanya dapat memperhitungkan, dan tidak pernah melebihi, performa logika aplikasi Anda saat ini (total hadiah rata-rata yang dicapai oleh tindakan garis besar). Tidak mungkin Personalizer akan mencapai kecocokan 100% dengan logika aplikasi Anda saat ini, dan disarankan bahwa setelah pencocokan 60%-80% tercapai, Personalizer harus dialihkan ke mode Online. Personalizer harus melebihi performa logika aplikasi dasar Anda. Jika kios performa Personalizer dari waktu ke waktu, Anda dapat melakukan evaluasi offline dan evaluasi fitur untuk mengejar peningkatan tambahan.
Rank API mengembalikan nilai untuk rewardActionId rewardActionId akan selalu menjadi Id tindakan default. Artinya, tindakan yang Anda kirim sebagai tindakan pertama dalam permintaan Rank API JSON. Dengan kata lain, API Peringkat tidak melakukan apa pun yang terlihat untuk aplikasi Anda selama mode Magang. rewardActionId akan menjadi salah satu Id yang disediakan dalam panggilan Rank API sebagaimana ditentukan oleh model Personalizer.
Evaluasi Personalizer menyimpan perbandingan total hadiah yang diperoleh logika aplikasi Anda saat ini, dan total hadiah yang akan diperoleh Personalizer jika dalam mode Online pada saat itu. Perbandingan ini tersedia untuk dilihat di bilah Monitor sumber daya Personalizer Anda di portal Azure. Evaluasi efektivitas Personalisasi dengan menjalankan Evaluasi offline, yang memungkinkan Anda membandingkan total hadiah yang telah dicapai Personalisasi dengan potensi hadiah dari garis besar aplikasi.

Perhatikan bahwa Personalizer tidak mungkin mencapai kecocokan performa 100% dengan logika dasar aplikasi, dan tidak akan pernah melebihinya. Pencocokan performa 60%-80% harus cukup untuk mengalihkan Personalizer ke mode Online, di mana Personalizer dapat mempelajari keputusan yang lebih baik dan melebihi performa logika dasar aplikasi Anda.

Batasan Mode Magang

Mode Magang melatih model Personalizer dengan mencoba meniru logika garis besar aplikasi yang ada, menggunakan fitur Konteks dan Tindakan yang ada dalam panggilan Peringkat. Faktor-faktor berikut akan memengaruhi kemampuan mode Magang untuk belajar.

Skenario di mana Mode Magang Tidak Sesuai:

Konten yang dipilih secara editorial:

Dalam beberapa skenario seperti berita atau hiburan, item garis besar dapat ditetapkan secara manual oleh tim editorial. Ini berarti manusia menggunakan pengetahuan mereka tentang dunia yang lebih luas, dan pemahaman tentang konten yang mungkin menarik, untuk memilih artikel atau media tertentu dari kumpulan, dan menandainya sebagai artikel "pilihan" atau "pahlawan". Karena editor ini bukan algoritma, dan faktor-faktor yang dipertimbangkan oleh editor dapat menjadi subjektif dan mungkin tidak terkait dengan fitur Konteks atau Tindakan. Dalam hal ini, mode Magang mungkin mengalami kesulitan dalam memprediksi tindakan garis besar. Di situasi ini, Anda dapat:

  • Uji Personalizer dalam Mode Online: Pertimbangkan untuk menempatkan Personalizer dalam Mode Online untuk waktu atau dalam pengujian A/B jika Anda memiliki infrastruktur, lalu jalankan Evaluasi Offline untuk menilai perbedaan antara logika dasar aplikasi Anda dan Personalizer.
  • Tambahkan pertimbangan dan rekomendasi editorial sebagai fitur: Tanyakan kepada editor faktor apa saja yang memengaruhi pilihan mereka, dan lihat jika Anda dapat menambahkannya sebagai fitur dalam konteks dan tindakan Anda. Misalnya, editor di perusahaan media dapat menyoroti konten ketika selebriti tertentu sering dalam berita: Pengetahuan ini dapat ditambahkan sebagai fitur Konteks.

Faktor yang akan meningkatkan dan mempercepat Mode Magang

Jika mode magang belajar dan mencapai performa yang cocok di atas nol, tetapi performa meningkat perlahan (tidak sampai ke 60% hingga 80% hadiah yang cocok dalam waktu dua minggu), ada kemungkinan bahwa ada terlalu sedikit data yang dikirim ke Personalizer. Langkah-langkah berikut dapat membantu memfasilitasi pembelajaran yang lebih cepat:

  1. Menambahkan fitur pembeda: Anda dapat melakukan inspeksi visual terhadap tindakan dalam panggilan Peringkat dan fitur-fiturnya. Apakah tindakan garis besar memiliki fitur yang membedakan dari tindakan lain? Jika sebagian besar terlihat sama, tambahkan lebih banyak fitur yang akan meningkatkan keragaman nilai fitur.
  2. Mengurangi Tindakan per Peristiwa: Personalizer akan menggunakan pengaturan "% panggilan Rank akan digunakan untuk eksplorasi" untuk menemukan preferensi dan tren. Saat panggilan Peringkat memiliki lebih banyak tindakan, peluang Tindakan tertentu yang dipilih untuk penjelajahan menjadi lebih rendah. Mengurangi jumlah tindakan yang dikirim dalam setiap panggilan Peringkat ke angka yang lebih kecil (di bawah 10) dapat menjadi penyesuaian sementara yang dapat menunjukkan apakah Mode Magang memiliki data yang cukup untuk dipelajari atau tidak.

Menggunakan mode Magang untuk berlatih dengan data historis

Jika Anda memiliki sejumlah besar data historis, yang ingin digunakan untuk melatih Personalizer, Anda dapat menggunakan mode Magang untuk memutar ulang data melalui Personalizer.

Siapkan Personalisasi dalam Mode Magang dan buat skrip yang memanggil Peringkat dengan fitur tindakan dan konteks dari data historis. Panggil API Hadiah berdasarkan perhitungan baris Anda dalam data ini. Anda mungkin memerlukan sekitar 50.000 peristiwa historis untuk melihat Personalizer mencapai kecocokan 60-80% dengan logika dasar aplikasi Anda. Anda mungkin dapat mencapai hasil yang memuaskan dengan lebih sedikit atau lebih banyak peristiwa.

Saat berlatih dari data historis, disarankan agar data yang dikirim dalam [fitur untuk konteks dan tindakan, tata letaknya di JSON yang digunakan untuk permintaan Peringkat, dan perhitungan hadiah dalam himpunan data pelatihan ini], cocok dengan data [fitur dan perhitungan hadiah] yang tersedia dari aplikasi Anda yang ada.

Data offline dan historis cenderung lebih tidak lengkap dan noisier dan dapat berbeda dalam format dari skenario dalam produksi (atau online). Meskipun pelatihan dari data historis dimungkinkan, hasil dari melakukannya mungkin tidak meyakinkan dan belum tentu merupakan prediktor yang baik tentang seberapa baik Personalizer akan belajar dalam mode Online, terutama jika fitur bervariasi antara data historis dan skenario saat ini.

Menggunakan Mode Magang versus Uji A/B

Hanya berguna untuk melakukan tes A/B perawatan Personalizer setelah divalidasi dan belajar dalam mode Online, karena dalam mode Magang, hanya tindakan dasar yang digunakan, dan logika yang ada dipelajari. Ini pada dasarnya berarti Personalizer mengembalikan tindakan lengan "kontrol" dari pengujian A/B Anda, sehingga pengujian A/B dalam mode Magang tidak memiliki nilai.

Setelah Anda memiliki kasus penggunaan menggunakan Personalizer dan belajar online, eksperimen A/B dapat memungkinkan Anda membuat kohor terkontrol dan melakukan perbandingan hasil yang mungkin lebih kompleks daripada sinyal yang digunakan untuk hadiah. Contoh pertanyaan yang dapat dijawab oleh pengujian A/B adalah: "Di situs web ritel, Personalizer mengoptimalkan tata letak dan mendapatkan lebih banyak pengguna untuk memeriksa sebelumnya, tetapi apakah ini mengurangi total pendapatan per transaksi?"

Langkah berikutnya