Apa itu Pembelajaran Penguatan?

Penting

Mulai 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan 1 Oktober 2026. Sebaiknya migrasikan ke microsoft/learning-loop sumber terbuka.

Reinforcement Learning adalah pendekatan untuk pembelajaran mesin yang mempelajari perilaku dengan mendapatkan umpan balik dari penggunaannya.

Pembelajaran Penguatan berfungsi dengan:

  • Memberikan kesempatan atau tingkat kebebasan untuk memberlakukan perilaku - seperti membuat keputusan atau pilihan.
  • Memberikan informasi kontekstual tentang lingkungan dan pilihan.
  • Memberikan umpan balik tentang seberapa baik perilaku mencapai tujuan tertentu.

Meskipun ada banyak subjenis dan gaya pembelajaran penguatan, ini adalah cara kerja konsep di Personalizer:

  • Aplikasi Anda memberikan kesempatan untuk menampilkan satu konten dari daftar alternatif.
  • Aplikasi Anda menyediakan informasi tentang setiap alternatif dan konteks pengguna.
  • Aplikasi Anda menghitung skor hadiah.

Tidak seperti beberapa pendekatan untuk pembelajaran penguatan, Personalizer tidak memerlukan simulasi untuk bekerja. Algoritma pembelajarannya dirancang untuk bereaksi terhadap dunia luar (versus mengontrolnya) dan belajar dari setiap titik data dengan pemahaman bahwa itu adalah peluang unik yang membutuhkan waktu dan uang untuk dibuat, dan bahwa ada penyesalan non-nol (hilangnya kemungkinan hadiah) jika performa suboptimal terjadi.

Jenis algoritma pembelajaran penguatan apa yang digunakan Personalizer?

Versi Personalizer saat ini menggunakan bandit kontekstual, pendekatan untuk pembelajaran penguatan yang berfokus pada membuat keputusan atau memilih di antara tindakan diskrit, dalam konteks tertentu.

Memori keputusan, model yang telah dilatih untuk mengambil keputusan sebaik mungkin dengan mempertimbangkan konteks, menggunakan sekumpulan model linier. Ini telah berulang kali menunjukkan hasil bisnis dan merupakan pendekatan yang terbukti, sebagian karena mereka dapat belajar dari dunia nyata dengan sangat cepat tanpa memerlukan pelatihan multi-pass, dan sebagian karena dapat melengkapi model pembelajaran yang diawasi dan model jaringan neural yang mendalam.

Alokasi lalu lintas untuk eksplorasi/tindakan terbaik dilakukan secara acak mengikuti persentase yang ditetapkan untuk eksplorasi, dan algoritma default untuk eksplorasi adalah epsilon-greedy.

Sejarah Bandit Kontekstual

John Langford menciptakan nama Bandit Kontekstual (dari Langford dan Zhang [2007]) untuk menggambarkan subset pembelajaran penguatan yang dapat dikelola dan telah mengerjakan setengah lusin makalah yang meningkatkan pemahaman tentang cara belajar dalam paradigma ini.

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal dkk. [2014, 2012]
  • Beygelzimer dan Langford [2009]
  • Li dkk. [2010]

John juga telah memberikan beberapa tutorial sebelumnya tentang topik seperti Prediksi Bersama (ICML 2015), Teori Bandit Kontekstual (NIPS 2013), Pembelajaran Aktif (ICML 2009), dan Batas Kompleksitas Sampel (ICML 2003)

Kerangka kerja pembelajaran mesin apa yang digunakan Personalizer?

Personalizer saat ini menggunakan Vowpal Wabbit sebagai fondasi untuk pembelajaran mesin. Kerangka kerja ini memungkinkan throughput maksimum dan latensi terendah saat membuat peringkat personalisasi dan melatih model dengan semua peristiwa.

Referensi

Langkah berikutnya

Evaluasi offline