I punteggi di ricompensa indicano il grado di successo della personalizzazione

Articolo
01/19/2024

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse di Personalizza esperienze. Il servizio Personalizza esperienze viene ritirato il 1° ottobre 2026.

Il punteggio di ricompensa indica l'efficacia della scelta di personalizzazione, RewardActionID, per l'utente. Il valore del punteggio di ricompensa è determinato dalla logica di business sulla base delle osservazioni del comportamento degli utenti.

Personalizza esperienze esegue il training dei modelli di Machine Learning valutando le ricompense.

Informazioni su come configurare il punteggio di ricompensa predefinito nella portale di Azure per la risorsa di Personalizza esperienze.

Usare l'API Ricompensa per inviare il punteggio di ricompensa a Personalizza esperienze

Le ricompense vengono inviate a Personalizza esperienze dall'API Ricompensa. In genere, una ricompensa è un numero compreso tra 0 e 1. Una ricompensa negativa, con il valore -1, è possibile in determinati scenari e deve essere usata solo se si ha esperienza con l'apprendimento per rinforzo (RL). Personalizza esperienze esegue il training del modello per ottenere la somma più alta possibile di ricompense nel tempo.

Le ricompense vengono inviate dopo che si è verificato il comportamento degli utenti, che può avvenire alcuni giorni più tardi. Il tempo massimo di attesa prima che Personalizza esperienze consideri un evento come evento senza ricompensa, o con una ricompensa predefinita, viene configurato con Tempo di attesa per la ricompensa nel portale di Azure.

Se non si riceve il punteggio di ricompensa per un evento nel tempo indicato per Tempo di attesa per la ricompensa, verrà applicato il valore di Ricompensa predefinita. Il valore di Ricompensa predefinita è impostato su zero.

Comportamenti e dati da considerare per le ricompense

Prendere in considerazione questi segnali e comportamenti per il contesto del punteggio di ricompensa:

Input utente diretto per i suggerimenti quando si tratta di opzioni ("Intendi X?").
Durata della sessione.
Tempo tra le sessioni.
Analisi del sentiment delle interazioni dell'utente.
Domande dirette e brevi sondaggi in cui il bot chiede all'utente un feedback sull'utilità e sull'accuratezza.
Risposta agli avvisi o ritardo nel rispondere agli avvisi.

Composizione dei punteggi di ricompensa

Un punteggio di ricompensa deve essere calcolato nella logica di business. Il punteggio può essere rappresentato come:

Un singolo numero inviato una volta
Un punteggio inviato immediatamente (ad esempio 0,8) e un punteggio aggiuntivo inviato in un secondo momento (in genere 0,2).

Ricompense predefinite

Se non viene ricevuta alcuna ricompensa nel tempo indicato per Tempo di attesa per la ricompensa, il tempo trascorso dopo la chiamata a Classifica, Personalizza esperienze applica implicitamente il valore di Ricompensa predefinita all'evento di Classifica.

Creazione di ricompense con più fattori

Per una personalizzazione efficace, è possibile creare il punteggio di ricompensa in base a più fattori.

È ad esempio possibile applicare queste regole per la personalizzazione di un elenco di contenuti video:

Comportamento utente	Valore punteggio parziale
L'utente ha fatto clic sul primo elemento.	Ricompensa +0,5
L'utente ha aperto il contenuto effettivo di tale elemento.	Ricompensa +0,3
L'utente ha guardato 5 minuti di contenuto o il 30% del contenuto, a seconda del valore corrispondente al tempo più lungo.	Ricompensa +0,2

È quindi possibile inviare la ricompensa totale all'API.

Chiamata all'API Ricompensa ripetuta più volte

È anche possibile chiamare l'API Ricompensa con lo stesso ID evento inviando punteggi di ricompensa diversi. Quando Personalizza esperienze ottiene tali ricompense, determina la ricompensa finale per tale evento aggregandoli come specificato nella configurazione di Personalizza esperienze.

Valori di aggregazione:

Primo: accetta il primo punteggio di ricompensa ricevuto per l'evento e rimuove il resto.
Somma: accetta tutti i punteggi di ricompensa raccolti per eventId e li aggiunge insieme.

Tutte le ricompense di un evento che vengono ricevute dopo il tempo specificato per Tempo di attesa per la ricompensa vengono ignorate e non hanno effetto sul training dei modelli.

Aggiungendo punteggi di ricompensa, la ricompensa finale potrebbe non rientrare nell'intervallo di punteggi previsto. Questo risultato non comporta l'esito negativo del servizio.

Procedure consigliate per il calcolo del punteggio di ricompensa

Considera veri indicatori di personalizzazione con successo: è facile pensare in termini di clic, ma una buona ricompensa è basata su ciò che vuoi che gli utenti raggiungano invece di quello che vuoi che le persone facciano. Il calcolo delle ricompense in base ai clic, ad esempio, può determinare la selezione di contenuto soggetto a clickbait.
Usa un punteggio di ricompensa per quanto funzionasse la personalizzazione: personalizzando un suggerimento di un film, l'utente dovrebbe guardare il film e assegnargli una valutazione elevata.Use a reward score for how good the personalization worked: Personalizing a movie suggestion wouldly result in the user watching the movie and giving it a high rating. Poiché la valutazione del film dipende probabilmente da molti fattori (la qualità della recitazione, lo stato d'animo dell'utente), non è un segnale di ricompensa appropriato per il funzionamento della personalizzazione. Il fatto che l'utente guardi i primi minuti del film, tuttavia, può essere un segnale migliore dell'efficacia della personalizzazione e l'invio di una ricompensa pari a 1 dopo cinque minuti sarà un segnale migliore.
Ricompense si applicano solo a RewardActionID: Personalizza esperienze applica le ricompense per comprendere l'efficacia dell'azione specificata in RewardActionID. Se si sceglie di visualizzare altre azioni e l'utente le seleziona, la ricompensa deve essere zero.
Prendere in considerazione le conseguenze impreviste: creare funzioni di ricompensa che portano a risultati responsabili con etica e uso responsabile.
Usa Incremental Rewards: l'aggiunta di ricompense parziali per comportamenti utente più piccoli consente a Personalizza esperienze di ottenere ricompense migliori. La ricompensa incrementale consente all'algoritmo di capire che si sta avvicinando all'obiettivo di indurre nell'utente il comportamento desiderato finale.
- Se si mostra un elenco di film e l'utente passa il puntatore del mouse sul primo per un periodo di tempo e visualizza altre informazioni, è possibile determinare che si è verificato un engagement dell'utente. Al comportamento può essere assegnato un punteggio di ricompensa pari a 0,1.
- Se l'utente ha aperto la pagina per poi uscire, il punteggio di ricompensa può essere di 0,2.

Tempo di attesa ricompensa

Personalizza esperienze correla le informazioni di una chiamata di rango con le ricompense inviate nelle chiamate reward per eseguire il training del modello, che può venire in momenti diversi. Personalizza esperienze attende il punteggio di ricompensa per un periodo di tempo limitato definito, a partire dal momento in cui si è verificata la chiamata rank corrispondente. Questa operazione viene eseguita anche se la chiamata rank è stata effettuata usando l'attivazione posticipata](concept-active-inactive-events.md).

Se il tempo di attesa ricompensa scade e non sono state fornite informazioni sulla ricompensa, viene applicata una ricompensa predefinita a tale evento per il training. È possibile selezionare un tempo di attesa ricompensa di 10 minuti, 4 ore, 12 ore o 24 ore. Se lo scenario richiede tempi di attesa di ricompensa più lunghi (ad esempio, per le campagne di posta elettronica di marketing) viene offerta un'anteprima privata dei tempi di attesa più lunghi. Aprire un ticket di supporto nel portale di Azure per entrare in contatto con il team e verificare se si qualifica e può essere offerto all'utente.

Procedure consigliate per il tempo di attesa della ricompensa

Seguire questi consigli per ottenere risultati ottimali.

Impostare il tempo di attesa per la ricompensa più breve possibile, lasciando un tempo sufficiente per ottenere il feedback degli utenti.
Non scegliere una durata inferiore al tempo necessario per ottenere il feedback. Se ad esempio alcune ricompense vengono fornite dopo che un utente ha guardato un video per un minuto, la durata dell'esperimento deve corrispondere almeno al doppio.