ما المقصود بالتعليم المعزز؟

مقالة
01/19/2024

هام

اعتبارا من 20 سبتمبر 2023، لن تتمكن من إنشاء موارد Personalizer جديدة. يتم إيقاف خدمة Personalizer في 1 أكتوبر 2026.

التعلم المعزز هو نهج للتعلم الآلي يتعلم السلوكيات من خلال الحصول على ملاحظات من استخدامه.

يعمل التعلم المعزز من خلال:

توفير فرصة أو درجة من الحرية في سنّ سلوك - مثل اتخاذ القرارات أو الاختيارات.
توفير معلومات سياقية حول البيئة والخيارات.
تقديم ملاحظات حول مدى نجاح السلوك في تحقيق هدف معين.

في حين أن هناك العديد من الأنواع الفرعية وأنماط التعلم المعزز، فإن هذه هي الطريقة التي يعمل بها المفهوم في Personalizer:

يوفر التطبيق الخاص بك الفرصة لإظهار جزء واحد من المحتوى من قائمة البدائل.
يوفر التطبيق الخاص بك معلومات حول كل بديل وسياق المستخدم.
يحسب تطبيقك درجة مكافأة.

على عكس بعض الأساليب لتعزيز التعلم، لا يتطلب Personalizer محاكاة للعمل فيها. تم تصميم خوارزميات التعلم الخاصة بها للتفاعل مع العالم الخارجي (مقابل التحكم فيه) والتعلم من كل نقطة بيانات مع إدراك أنها فرصة فريدة تكلف الوقت والمال لإنشائها، وأن هناك ندمًا غير صفري (خسارة مكافأة محتملة) إذا حدث أداء دون المستوى الأمثل.

ما نوع خوارزميات التعلم المعززة التي يستخدمها Personalizer؟

يستخدم الإصدار الحالي من Personalizer contextual bandits، وهو نهج لتعزيز التعلم الذي يتم إطاره حول اتخاذ القرارات أو الاختيارات بين الإجراءات المنفصلة، في سياق معين.

تستخدم ذاكرة القرار، النموذج الذي تم تدريبه لتسجيل أفضل قرار ممكن، نظرًا للسياق، مجموعة من النماذج الخطية. لقد أظهرت هذه النتائج مرارًا وتكرارًا نتائج الأعمال وهي نهج مثبت، جزئيًا لأنها يمكن أن تتعلم من العالم الحقيقي بسرعة كبيرة دون الحاجة إلى تدريب متعدد المسارات، وجزئيًا لأنها يمكن أن تكمل نماذج التعلم الخاضعة للإشراف ونماذج الشبكة العصبية العميقة.

يتم تخصيص استكشاف / أفضل إجراء نسبة استخدام الشبكة عشوائيا باتباع النسبة المئوية المعينة للاستكشاف، والخوارزمية الافتراضية للاستكشاف هي epsilon-greedy.

سجل Contextual Bandits

صاغ جون لانجفورد اسم Contextual Bandits (Langford and Zhang [2007]) لوصف مجموعة فرعية قابلة للتتبع من التعلم المعزز وعمل على ستة أوراق بحثية لتحسين فهمنا لكيفية التعلم في هذا النموذج:

Beygelzimer et al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer and Langford [2009]
Li et al. [2010]

قدم جون أيضًا العديد من البرامج التعليمية سابقًا حول مواضيع مثل التنبؤ المشترك (ICML 2015)، ونظرية Contextual Bandits (NIPS 2013)، والتعلم النشط (ICML 2009)، وحدود تعقيد العينة (ICML 2003)

ما هي أطر عمل التعلم الآلي التي يستخدمها Personalizer؟

يستخدم Personalizer حاليًا Vowpal Wabbit كأساس للتعلم الآلي. يسمح إطار العمل هذا بأقصى معدل نقل وأدنى زمن انتقال عند تخصيص الأصناف وتدريب النموذج مع جميع الأحداث.

المراجع

الخطوات التالية

التقييم دون اتصال

مشاركة عبر