Co to jest uczenie wzmacniania?
Ważne
Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.
Uczenie wzmacniania to podejście do uczenia maszynowego, które uczy się zachowań przez uzyskanie opinii od jej użycia.
Uczenie wzmacniania działa przez:
- Zapewnienie możliwości lub stopnia swobody uchwalenia zachowania - na przykład podejmowania decyzji lub wyborów.
- Podawanie kontekstowych informacji o środowisku i wyborach.
- Przekazywanie opinii na temat tego, jak dobrze zachowanie osiąga określony cel.
Chociaż istnieje wiele podtypów i stylów uczenia wzmacniania, tak działa koncepcja w usłudze Personalizacja:
- Aplikacja umożliwia wyświetlenie jednej zawartości z listy alternatyw.
- Aplikacja udostępnia informacje o każdej alternatywie i kontekście użytkownika.
- Aplikacja oblicza wynik nagrody.
W przeciwieństwie do niektórych metod uczenia się wzmacniania usługa Personalizacja nie wymaga symulacji do pracy. Algorytmy uczenia zostały zaprojektowane tak, aby reagowały na świat zewnętrzny (w przeciwieństwie do kontroli) i nauczyły się od każdego punktu danych, rozumiejąc, że jest to wyjątkowa okazja, że czas i pieniądze na tworzenie oraz że istnieje niezerowy żal (utrata możliwej nagrody), jeśli wystąpi nieoptymalna wydajność.
Jakiego typu algorytmy uczenia wzmacniania używają usługi Personalizacja?
Bieżąca wersja usługi Personalizacja używa kontekstowych bandytów, czyli podejścia do uczenia wzmacniania, które jest związane z podejmowaniem decyzji lub wyborami między dyskretnymi akcjami w danym kontekście.
Pamięć decyzyjna, model, który został wytrenowany w celu przechwycenia najlepszej możliwej decyzji, biorąc pod uwagę kontekst, używa zestawu modeli liniowych. Wielokrotnie pokazywały wyniki biznesowe i są sprawdzonym podejściem, częściowo dlatego, że mogą one uczyć się z rzeczywistego świata bardzo szybko bez konieczności trenowania wieloprzedagowego, a częściowo dlatego, że mogą uzupełniać nadzorowane modele uczenia i głębokie modele sieci neuronowych.
Alokacja ruchu eksplorowanego/najlepszego działania jest wykonywana losowo po wartości procentowej ustawionej na potrzeby eksploracji, a domyślnym algorytmem eksploracji jest epsilon-chciwy.
Historia kontekstowych bandytów
John Langford ukuł nazwę Contextual Bandits (Langford i Zhang [2007]), aby opisać podzbiór uczenia się wzmacniania i pracował nad pół tuzina dokumentów, co poprawia nasze zrozumienie, jak nauczyć się w tym paradygmatzie:
- Beygelzimer et al. [2011]
- Dudík et al. [2011a, b]
- Agarwal et al. [2014, 2012]
- Beygelzimer i Langford [2009]
- Li et al. [2010]
Jan udzielił również kilku samouczków, takich jak wspólne przewidywanie (ICML 2015), kontekstowa teoria bandytów (NIPS 2013), active learning (ICML 2009) i przykładowe ograniczenia złożoności (ICML 2003)
Jakich struktur uczenia maszynowego używa usługa Personalizacja?
Personalizacja używa obecnie Vowpal Wabbit jako podstawy uczenia maszynowego. Ta struktura umożliwia maksymalną przepływność i najmniejsze opóźnienia podczas klasyfikowania personalizacji i trenowania modelu ze wszystkimi zdarzeniami.
Informacje
- Podejmowanie decyzji kontekstowych przy niskim długu technicznym
- Podejście redukcji do sprawiedliwej klasyfikacji
- Wydajne kontekstowe bandytów w nieruchomych światach
- Przewidywanie strat reszt: wzmocnienie: uczenie bez przyrostowych opinii
- Mapowanie instrukcji i obserwacji wizualnych na akcje przy użyciu uczenia wzmacniania
- Nauka wyszukiwania lepiej niż nauczyciel