Ocena w trybie offline
Ważne
Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.
Ocena w trybie offline to metoda umożliwiająca testowanie i ocenianie skuteczności usługi Personalizacja bez zmieniania kodu lub wpływania na środowisko użytkownika. Ocena w trybie offline używa poprzednich danych wysyłanych z aplikacji do interfejsów API rangi i nagrody, aby porównać sposób wykonywania różnych klasyfikacji.
Ocena w trybie offline jest wykonywana w zakresie dat. Zakres może zakończyć się tak późno, jak w bieżącym czasie. Początek zakresu nie może być większy niż liczba dni określona na potrzeby przechowywania danych.
Ocena w trybie offline może pomóc w udzieleniu odpowiedzi na następujące pytania:
- Jak skuteczne są klasyfikacje personalizacji w celu pomyślnego personalizacji?
- Jakie są średnie nagrody osiągnięte przez zasady uczenia maszynowego online Personalizacja?
- W jaki sposób usługa Personalizacja porównuje się do skuteczności działania aplikacji domyślnie?
- Jaka byłaby porównawcza skuteczność losowego wyboru personalizacji?
- Jaka byłaby porównawcza skuteczność różnych zasad uczenia się określonych ręcznie?
- Które funkcje kontekstu przyczyniają się mniej lub bardziej do pomyślnej personalizacji?
- Które funkcje akcji przyczyniają się mniej lub bardziej do pomyślnej personalizacji?
Ponadto ocena w trybie offline może służyć do odnajdywania bardziej zoptymalizowanych zasad uczenia, których usługa Personalizacja może używać do ulepszania wyników w przyszłości.
Oceny w trybie offline nie zawierają wskazówek dotyczących procentu zdarzeń, które mają być używane do eksploracji.
Wymagania wstępne dotyczące oceny offline
Poniżej przedstawiono ważne zagadnienia dotyczące reprezentatywnej oceny offline:
- Mieć wystarczającą ilość danych. Zalecana wartość minimalna to co najmniej 50 000 zdarzeń.
- Zbieranie danych z okresów z reprezentatywnym zachowaniem użytkowników i ruchem.
Odnajdywanie zoptymalizowanych zasad uczenia
Personalizacja umożliwia automatyczne odnajdywanie bardziej optymalnych zasad uczenia się przy użyciu procesu oceny w trybie offline.
Po przeprowadzeniu oceny w trybie offline można zobaczyć porównawczą skuteczność usługi Personalizacja z nowymi zasadami w porównaniu z bieżącymi zasadami online. Następnie możesz zastosować te zasady szkoleniowe, aby były skuteczne natychmiast w usłudze Personalizacja, pobierając je i przekazując w panelu Modele i zasady. Możesz również pobrać go do przyszłej analizy lub użycia.
Bieżące zasady uwzględnione w ocenie:
Ustawienia uczenia | Purpose |
---|---|
Zasady online | Bieżące zasady szkoleniowe używane w usłudze Personalizacja |
Linia bazowa | Domyślna aplikacja (określona przez pierwszą akcję wysłaną w wywołaniach rangi) |
Zasady losowe | Wyimaginowane zachowanie rangi, które zawsze zwraca losowy wybór akcji z podanych. |
Zasady niestandardowe | Dodatkowe zasady szkoleniowe przekazane podczas uruchamiania oceny. |
Zoptymalizowane zasady | Jeśli ocena została rozpoczęta z opcją odnajdywania zoptymalizowanych zasad, zostanie ona również porównana i będzie można ją pobrać lub ustawić w zasadach uczenia online, zastępując bieżącą. |
Zrozumienie istotności wyników oceny w trybie offline
Podczas przeprowadzania oceny w trybie offline bardzo ważne jest analizowanie granic ufności wyników. Jeśli są szerokie, oznacza to, że aplikacja nie otrzymała wystarczającej ilości danych, aby oszacowania nagród były dokładne lub znaczące. W miarę jak system gromadzi więcej danych i uruchamiasz oceny offline w dłuższych okresach, interwały ufności stają się węższe.
Jak są wykonywane oceny offline
Oceny offline są wykonywane przy użyciu metody o nazwie Counterfactual Evaluation.
Personalizacja jest oparta na założeniu, że zachowanie użytkowników (a tym samym nagrody) jest niemożliwe do przewidywania retrospektywnie (Personalizacja nie może wiedzieć, co by się stało, gdyby użytkownik był pokazany coś innego niż to, co widzieli), i tylko uczyć się od mierzonych nagród.
Jest to proces koncepcyjny używany do oceny:
[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
Initialize a virtual instance of Personalizer with that policy and a blank model;
[For every chronological event in the logs]
{
- Perform a Rank call
- Compare the reward of the results against the logged user behavior.
- If they match, train the model on the observed reward in the logs.
- If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.
}
Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}
Ocena w trybie offline używa tylko obserwowanego zachowania użytkownika. Ten proces odrzuca duże ilości danych, zwłaszcza jeśli aplikacja wykonuje wywołania Rank z dużą liczbą akcji.
Ocena funkcji
Oceny w trybie offline mogą zawierać informacje o tym, ile konkretnych funkcji dla akcji lub kontekstu waży w przypadku wyższych nagród. Informacje są obliczane przy użyciu oceny dla danego okresu i danych i mogą się różnić w zależności od czasu.
Zalecamy zapoznanie się z ocenami funkcji i pytaniem:
- Jakie inne, dodatkowe funkcje mogą być dostępne w aplikacji lub systemie w zależności od tych, które są bardziej skuteczne?
- Jakie funkcje można usunąć z powodu niskiej skuteczności? Funkcje niskiej skuteczności dodają szum do uczenia maszynowego.
- Czy istnieją jakieś funkcje, które zostały przypadkowo uwzględnione? Przykłady z nich to: informacje umożliwiające identyfikację użytkownika, zduplikowane identyfikatory itp.
- Czy istnieją niepożądane funkcje, które nie powinny być używane do personalizowania ze względu na zagadnienia związane z przepisami lub odpowiedzialnymi zastosowaniami? Czy istnieją funkcje, które mogą być serwerem proxy (czyli ściśle dublowane lub skorelowane) niepożądane funkcje?
Następne kroki
Konfigurowanie ocen trybu offline uruchamiania usługi Personalizacja— informacje o sposobie działania usługi Personalizacja