Was ist vertiefendes Lernen?

Artikel
01/19/2024

Wichtig

Ab dem 20. September 2023 können Sie keine neuen Personalisierungsressourcen mehr erstellen. Der Personalisierungsdienst wird am 1. Oktober 2026 eingestellt.

Vertiefendes Lernen ist ein Machine Learning-Ansatz, bei dem Verhaltensweisen durch Abrufen von Feedback zu ihrer Verwendung gelernt werden.

Vertiefendes Lernen geschieht durch:

Bereitstellen einer Möglichkeit oder eines Freiheitsgrads zum Ausüben eines Verhaltens – z.B. Treffen von Entscheidungen oder einer Auswahl.
Bereitstellen von Kontextinformationen über Umgebung und Auswahl.
Bereitstellen von Feedback darüber, wie gut mit dem Verhalten ein bestimmtes Ziel erreicht wird.

Es gibt viele Untertypen und Stile des vertiefenden Lernens, und in der Personalisierung wird dieses Konzept folgendermaßen eingesetzt:

Ihre Anwendung bietet die Möglichkeit, einen Teil des Inhalts aus einer Liste von Alternativen anzuzeigen.
Ihre Anwendung bietet Informationen zu jeder Alternative und dem Kontext des Benutzers.
Ihre Anwendung berechnet eine Belohnungsbewertung.

Im Gegensatz zu manchen Ansätzen des vertiefenden Lernens erfordert die Personalisierung keine Simulation als Arbeitsumgebung. Die Lernalgorithmen sind so konzipiert, dass sie auf die Außenwelt reagieren (anstatt sie zu kontrollieren) und aus jedem Datenpunkt lernen. Dabei wird berücksichtigt, dass es sich um eine einmalige Gelegenheit handelt, die Zeit und Geld kostet, um sie zu schaffen, und dass es ein Bedauern ungleich Null gibt (Verlust einer möglichen Belohnung), wenn eine suboptimale Leistung stattfindet.

Welche Art von Algorithmen für vertiefendes Lernen verwendet die Personalisierung?

Die aktuelle Version der Personalisierung verwendet kontextabhängige Banditen, einen Ansatz für vertiefendes Lernen, bei dem es um das Treffen von Entscheidungen oder Auswahl zwischen diskreten Aktionen in einem bestimmten Kontext geht.

Der Entscheidungsspeicher, das Modell, das trainiert wurde, um die bestmögliche Entscheidung in einem bestimmten Kontext zu treffen, verwendet eine Reihe von linearen Modellen. Mit diesen wurden wiederholt Geschäftsergebnisse erzielt, und sie sind ein bewährter Ansatz, zum Teil, weil sie sehr schnell ohne Training in vielen Durchläufen von der realen Welt lernen können, und zum Teil, weil sie überwachte Lernmodelle und Modelle tiefer neuronaler Netzwerke ergänzen können.

Die Datenverkehrszuweisung „Durchsuchen/Beste Aktion“ erfolgt nach dem Zufallsprinzip nach dem für das Durchsuchen festgelegten Prozentsatz, und der Standardalgorithmus für das Durchsuchen ist Epsilon-Greedy.

Verlauf der kontextabhängigen Banditen

John Langford prägte den Namen der „kontextabhängigen Banditen“ (Contextual Bandits, Langford und Zhang [2007]), um einen formbaren Teil des vertiefenden Lernens zu beschreiben, und hat an einem halben Dutzend Artikeln gearbeitet, die unser Verständnis von der Art des Lernens in diesem Paradigma verbessert haben:

Beygelzimer et Al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer und Langford [2009]
Li et al. [2010]

John hat auch vorher mehrere Tutorials zu Themen wie Joint Prediction (Gemeinsame Vorhersage, ICML 2015), Contextual Bandit Theory (Theorie zu kontextabhängigen Banditen, NIPS 2013), Active Learning (Aktives Lernen, ICML 2009) und Sample Complexity Bounds (Beispielkomplexitätsbegrenzungen, ICML 2003) verfasst.

Welche Machine Learning-Rahmen verwendet die Personalisierung?

Die Personalisierung verwendet derzeit Vowpal Wabbit als Grundlage für das Machine Learning. Dieser Rahmen ermöglicht maximalen Datendurchsatz und niedrigste Latenzzeit beim Aufstellen von Personalisierungsrangfolgen und Trainieren des Modells mit allen Ereignissen.

References

Making Contextual Decisions with Low Technical Debt (Treffen von Kontextentscheidungen mit geringem technischem Aufwand)
A Reductions Approach to Fair Classification (Ein Reduzierungsansatz zu fairer Klassifizierung)
Efficient Contextual Bandits in Non-stationary Worlds (Effiziente kontextabhängige Banditen in nicht stationären Welten)
Residual Loss Prediction: Reinforcement learning With No Incremental Feedback (Residual Loss Prediction: vertiefendes Lernen ohne inkrementelles Feedback)
Mapping Instructions and Visual Observations to Actions with Reinforcement Learning (Zuordnungsanweisungen und visuelle Beobachtungen zu Aktionen mit vertiefendem Lernen)
Learning to Search Better Than Your Teacher (Lernen, besser zu suchen als dein Lehrer)

Nächste Schritte

Offlineauswertung