Co to jest usługa Personalizacja?

2024-10-16

Ważne

Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.

Usługa Personalizacja sztucznej inteligencji platformy Azure to usługa sztucznej inteligencji, którą aplikacje podejmują inteligentniejsze decyzje na dużą skalę przy użyciu uczenia wzmacniania. Personalizator przetwarza informacje o stanie aplikacji, scenariusza i/lub użytkowników (kontekstach) oraz zestaw możliwych decyzji i powiązanych atrybutów (akcji), aby określić najlepszą decyzję do podjęcia. Opinie od aplikacji (nagrody) są wysyłane do usługi Personalizacja, aby dowiedzieć się, jak poprawić jej zdolność do podejmowania decyzji w czasie niemal rzeczywistym.

Usługa Personalizacja może określić najlepsze działania, które należy wykonać w różnych scenariuszach:

Handel elektroniczny: Jaki produkt powinien być wyświetlany klientom, aby zmaksymalizować prawdopodobieństwo zakupu?
Zalecenie dotyczące zawartości: Jaki artykuł powinien być wyświetlany, aby zwiększyć szybkość kliknięć?
Projekt zawartości: Gdzie należy umieścić anons, aby zoptymalizować zaangażowanie użytkowników w witrynie internetowej?
Komunikacja: Kiedy i jak należy wysłać powiadomienie, aby zmaksymalizować prawdopodobieństwo odpowiedzi?

Aby rozpocząć pracę z usługą Personalizacja, postępuj zgodnie z przewodnikiem Szybki start lub wypróbuj usługę Personalizacja w przeglądarce, korzystając z tego interaktywnego pokazu.

Ta dokumentacja zawiera następujące typy artykułów:

Przewodniki Szybki start zawierają instrukcje krok po kroku dotyczące konfigurowania i przykładowego kodu w celu rozpoczęcia wprowadzania żądań interfejsu API do usługi.
Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z funkcji usługi Personalizacja i zaawansowanych możliwości.
Przykłady kodu pokazują, jak używać usługi Personalizacja i ułatwiają interfejs aplikacji za pomocą usługi.
Samouczki są dłuższe przewodniki implementowania usługi Personalizacja w ramach szerszego rozwiązania biznesowego.
Pojęcia zawierają dalsze szczegółowe informacje na temat funkcji, możliwości i podstaw usługi Personalizacja.

Jak działa usługa Personalizacja?

Personalizacja korzysta z uczenia wzmacniania, aby wybrać najlepszą akcję dla danego kontekstu dla wszystkich użytkowników, aby zmaksymalizować średnią nagrodę.

Kontekst: informacje opisujące stan aplikacji, scenariusza lub użytkownika, które mogą być istotne w podejmowaniu decyzji.
- Przykład: lokalizacja, typ urządzenia, wiek i ulubione tematy użytkowników odwiedzających witrynę internetową.
Akcje: dyskretny zestaw elementów, które można wybrać, wraz z atrybutami opisującym każdy element.
- Przykład: zestaw artykułów z wiadomościami i tematów, które zostały omówione w każdym artykule.
Nagroda: wynik liczbowy z zakresu od 0 do 1, który wskazuje, czy decyzja była zła (0), czy dobra (1)
- Przykład: "1" wskazuje, że użytkownik kliknął sugerowany artykuł, natomiast "0" wskazuje, że użytkownik nie.

Interfejsy API klasyfikacji i nagrody

Usługa Personalizacja umożliwia korzystanie z możliwości i elastyczności uczenia się wzmacniania przy użyciu tylko dwóch podstawowych interfejsów API.

Interfejs API rangijest wywoływany przez aplikację za każdym razem, gdy zostanie podjęta decyzja. Aplikacja wysyła kod JSON zawierający zestaw akcji, funkcje opisujące każdą akcję i funkcje opisujące bieżący kontekst. Każde wywołanie interfejsu API rangi jest nazywane zdarzeniem i zanotowany unikatowym identyfikatorem zdarzenia. Usługa Personalizacja zwraca następnie identyfikator najlepszej akcji, która maksymalizuje łączną średnią nagrodę zgodnie z modelem bazowym.

Interfejs API nagrodyjest wywoływany przez aplikację za każdym razem, gdy pojawia się opinia, która może pomóc Personalizatorowi dowiedzieć się, czy identyfikator akcji zwrócony w podanej wartości wywołania rangi. Jeśli na przykład użytkownik kliknął sugerowany artykuł z wiadomościami lub ukończył zakup sugerowanego produktu. Wywołanie interfejsu API nagrody może być wykonywane w czasie rzeczywistym (tuż po wywołaniu rangi) lub opóźnione w celu lepszego dopasowania do potrzeb scenariusza. Wynik nagrody jest określany przez metryki i cele biznesowe i może być generowany przez algorytm lub reguły w aplikacji. Wynik jest rzeczywistą liczbą z zakresu od 0 do 1.

Tryby nauki

Tryb praktykanta Podobny do tego, w jaki sposób praktykant uczy się rzemiosła z obserwacji eksperta, tryb praktykanta umożliwia personalizacji naukę, obserwując bieżącą logikę decyzyjną aplikacji. Pomaga to wyeliminować tak zwany problem "zimny start" z nowym nietrenowanym modelem i umożliwia zweryfikowanie funkcji akcji i kontekstu wysyłanych do usługi Personalizacja. W trybie ucznia każde wywołanie interfejsu API rangi zwraca akcję bazową lub domyślną akcję, która jest akcją wykonywaną przez aplikację bez użycia usługi Personalizacja. Jest to wysyłane przez aplikację do usługi Personalizacja w interfejsie API rangi jako pierwszy element w zestawie możliwych akcji.
Tryb online Personalizacja zwróci najlepszą akcję, biorąc pod uwagę kontekst określony przez bazowy model listy RL i bada inne możliwe akcje, które mogą poprawić wydajność. Personalizacja uczy się na podstawie opinii podanych w wywołaniach interfejsu API nagrody.

Należy pamiętać, że usługa Personalizacja używa zbiorczych informacji dla wszystkich użytkowników, aby poznać najlepsze działania na podstawie bieżącego kontekstu. Usługa nie wykonuje następujących istotnych funkcji:

Utrwalanie informacji o profilu użytkownika i zarządzanie nimi. Unikatowe identyfikatory użytkowników nie powinny być wysyłane do usługi Personalizacja.
Rejestruj preferencje poszczególnych użytkowników lub dane historyczne.

Przykładowe scenariusze

Oto kilka przykładów, w których usługa Personalizacja może służyć do wybierania najlepszej zawartości do renderowania dla użytkownika.

Typ zawartości	Akcje {features}	Funkcje kontekstowe	Zwrócony identyfikator akcji nagrody (wyświetl tę zawartość)
Artykuły z wiadomościami	a. `The president...`, {narodowy, polityka, [tekst]} b. `Premier League ...` {global, sport, [tekst, obraz, wideo]} c. `Hurricane in the ...` {regionalna, pogoda, [tekst,obraz]}	Country='USA', Recent_Topics=('polityka', 'biznes'), Month='Październik'	a `The president...`
Filmy	1. `Star Wars` {1977, [akcja, przygoda, fantazja], George Lucas} 2. `Hoop Dreams` {1994, [dokumentalny, sport], Steve James} 3. `Casablanca` {1942, [romans, dramat, wojna], Michael Curtiz}	Urządzenie='smart TV' Screen_Size='large', Favorite_Genre='classics'	3. `Casablanca`
Produkty handlu elektronicznego	punkt i. `Product A` {3 kg, $$$$, dostarczyć w ciągu 1 dnia} ii. `Product B` {20 kg, $$, dostarczać w ciągu 7 dni} iii. `Product C` {3 kg, $$$, dostarczyć w ciągu 2 dni}	Device='iPhone', Spending_Tier='low', Month='czerwiec'	Ii. `Product B`

Wymagania dotyczące scenariusza

Użyj usługi Personalizacja, gdy scenariusz ma:

Ograniczony zestaw akcji lub elementów do wybrania w każdym zdarzeń personalizacji. W każdym wywołaniu interfejsu API rangi zalecamy nie więcej niż ok. 50 akcji. Jeśli masz większy zestaw możliwych akcji, zalecamy użycie aparatu rekomendacji lub innego mechanizmu w celu zmniejszenia listy akcji przed wywołaniem interfejsu API rangi.
Informacje opisujące akcje (funkcje akcji).
Informacje opisujące bieżący kontekst (funkcje kontekstowe).
Wystarczająca ilość danych, aby umożliwić personalizacji naukę. Ogólnie rzecz biorąc, zalecamy co najmniej około 1000 zdarzeń dziennie, aby umożliwić personalizacji efektywne uczenie się. Jeśli usługa Personalizacja nie odbiera wystarczających danych, określenie najlepszych akcji trwa dłużej.

Odpowiedzialne użycie sztucznej inteligencji

W firmie Microsoft jesteśmy zobowiązani do rozwoju sztucznej inteligencji opartej na zasadach, które stawiają ludzi na pierwszym miejscu. Modele sztucznej inteligencji, takie jak te dostępne w usłudze Personalizacja, mają znaczące potencjalne korzyści, ale bez starannego projektowania i przemyślanych środków zaradczych takie modele mogą generować niepoprawną, a nawet szkodliwą zawartość. Firma Microsoft poczyniła znaczne inwestycje w ochronę przed nadużyciami i niezamierzoną szkodą, uwzględniając zasady firmy Microsoft dotyczące odpowiedzialnego używania sztucznej inteligencji, tworzenie filtrów zawartości do obsługi klientów oraz zapewnianie odpowiedzialnych wskazówek dotyczących implementacji sztucznej inteligencji do dołączanych klientów. Zobacz dokumentację odpowiedzialnej sztucznej inteligencji dla usługi Personalizacja.

Integrowanie usługi Personalizacja z aplikacją

Projektowanie i planowanie akcji i kontekstu. Ustal, jak interpretować opinie jako wynik nagrody.

Każdy utworzony zasób personalizacji jest definiowany jako jedna pętla szkoleniowa. Pętla otrzyma wywołania rangi i nagrody dla tej zawartości lub środowiska użytkownika i wytrenuje bazowy model listy RL. Istnieją

Typ zasobu	Przeznaczenie
Tryb ucznia - `E0`	Przeszkolij usługę Personalizacja, aby naśladować bieżącą logikę podejmowania decyzji bez wpływu na istniejącą aplikację przed użyciem trybu online w celu uzyskania lepszych zasad w środowisku produkcyjnym.
Tryb online — Standardowa, `S0`	Usługa Personalizacja używa listy RL do określania najlepszych akcji w środowisku produkcyjnym.
Tryb online — wersja bezpłatna, `F0`	Spróbuj spersonalizować w ograniczonym środowisku nieprodukcyjnym.

Dodaj usługę Personalizacja do aplikacji, witryny internetowej lub systemu:

Dodaj wywołanie rangi do usługi Personalizacja w aplikacji, witrynie internetowej lub systemie, aby określić najlepszą akcję.
Użyj najlepszej akcji, jak określono jako identyfikator akcji nagrody w twoim scenariuszu.

Zastosuj logikę biznesową do zachowania użytkownika lub danych opinii, aby określić wynik nagrody . Na przykład:

Zachowanie	Obliczony wynik nagrody
Użytkownik wybrał artykuł z wiadomościami sugerowany przez usługę Personalizacja	1
Użytkownik wybrał artykuł z wiadomościami, który nie jest sugerowany przez usługę Personalizacja	0
Użytkownik wahał się wybrać artykuł z wiadomościami, przewijał się niezdecydująco i ostatecznie wybrał artykuł z wiadomościami sugerowany przez Personalizacja	0.5

Dodawanie połączenia reward wysyłającego wynik nagrody z zakresu od 0 do 1
- Natychmiast po otrzymaniu opinii.
- A czasami później w scenariuszach, w których oczekiwane są opóźnione opinie.
Oceń pętlę przy użyciu oceny w trybie offline po upływie czasu, gdy usługa Personalizacja otrzymała znaczące dane w celu podejmowania decyzji online. Ocena w trybie offline umożliwia przetestowanie i ocenę skuteczności usługi Personalizacja bez zmian w kodzie lub wpływu na użytkownika.

Następne kroki

Przewodnik Szybki start dotyczący personalizacji

Udostępnij za pośrednictwem