Co to jest Edukacja wzmacniania?

Artykuł
01/19/2024

Ważne

Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.

Wzmacnianie Edukacja to podejście do uczenia maszynowego, które uczy się zachowań przez uzyskanie opinii z jej użycia.

Wzmacnianie Edukacja działa przez:

Zapewnienie możliwości lub stopnia swobody uchwalenia zachowania - na przykład podejmowania decyzji lub wyborów.
Podawanie kontekstowych informacji o środowisku i wyborach.
Przekazywanie opinii na temat tego, jak dobrze zachowanie osiąga określony cel.

Chociaż istnieje wiele podtypów i stylów uczenia wzmacniania, tak działa koncepcja w usłudze Personalizacja:

Aplikacja umożliwia wyświetlenie jednej zawartości z listy alternatyw.
Aplikacja udostępnia informacje o każdej alternatywie i kontekście użytkownika.
Aplikacja oblicza wynik nagrody.

W przeciwieństwie do niektórych metod uczenia się wzmacniania usługa Personalizacja nie wymaga symulacji do pracy. Algorytmy uczenia zostały zaprojektowane tak, aby reagowały na świat zewnętrzny (w przeciwieństwie do kontroli) i nauczyły się od każdego punktu danych, rozumiejąc, że jest to wyjątkowa okazja, że czas i pieniądze na tworzenie oraz że istnieje niezerowy żal (utrata możliwej nagrody), jeśli wystąpi nieoptymalna wydajność.

Jakiego typu algorytmy uczenia wzmacniania używają usługi Personalizacja?

Bieżąca wersja usługi Personalizacja używa kontekstowych bandytów, czyli podejścia do uczenia wzmacniania, które jest związane z podejmowaniem decyzji lub wyborami między dyskretnymi akcjami w danym kontekście.

Pamięć decyzyjna, model, który został wytrenowany w celu przechwycenia najlepszej możliwej decyzji, biorąc pod uwagę kontekst, używa zestawu modeli liniowych. Wielokrotnie pokazywały wyniki biznesowe i są sprawdzonym podejściem, częściowo dlatego, że mogą one uczyć się z rzeczywistego świata bardzo szybko bez konieczności trenowania wieloprzedagowego, a częściowo dlatego, że mogą uzupełniać nadzorowane modele uczenia i głębokie modele sieci neuronowych.

Alokacja ruchu eksplorowanego/najlepszego działania jest wykonywana losowo po wartości procentowej ustawionej na potrzeby eksploracji, a domyślnym algorytmem eksploracji jest epsilon-chciwy.

Historia kontekstowych bandytów

John Langford ukuł nazwę Contextual Bandits (Langford i Zhang [2007]), aby opisać podzbiór uczenia się wzmacniania i pracował nad pół tuzina dokumentów, co poprawia nasze zrozumienie, jak nauczyć się w tym paradygmatzie:

Beygelzimer et al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer i Langford [2009]
Li et al. [2010]

Jan udzielił również kilku samouczków, takich jak wspólne przewidywanie (ICML 2015), kontekstowa teoria bandytu (NIPS 2013), aktywna Edukacja (ICML 2009) i ograniczenia złożoności próbki (ICML 2003)

Jakich struktur uczenia maszynowego używa usługa Personalizacja?

Personalizacja używa obecnie Vowpal Wabbit jako podstawy uczenia maszynowego. Ta struktura umożliwia maksymalną przepływność i najmniejsze opóźnienia podczas klasyfikowania personalizacji i trenowania modelu ze wszystkimi zdarzeniami.

Odwołania

Następne kroki

Ocena w trybie offline