Funcionamiento de Personalizer

Artículo
09/03/2024

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

El recurso de Personalizer, su bucle de aprendizaje, utiliza el aprendizaje automático para compilar el modelo que predice la acción superior para su contenido. El modelo se entrena exclusivamente con los datos que usted le envía con las llamadas a Rank y Reward. Todos los bucles son completamente independientes entre sí.

Las API Rank y Reward afectan al modelo

Usted envía acciones con características y características de contexto a la API Rank. La API Rank decide usar:

Vulnerabilidad de seguridad: el modelo actual para decidir la mejor acción según los datos anteriores.
Explorar: seleccione una acción diferente, en lugar de la acción superior. Usted configura este porcentaje para el recurso de Personalizer en Azure Portal.

Determina la puntuación de la recompensa y envía esa puntuación a la API Reward. La API Reward:

Recopila datos para entrenar el modelo mediante la grabación de las características y las puntuaciones de recompensa de cada llamada a Rank.
Utiliza esos datos para actualizar el modelo, en función de la configuración especificada en la directiva de aprendizaje.

Llamada del sistema a Personalizer

La siguiente imagen muestra el flujo arquitectónico de realizar las llamadas a Rank y Reward:

alt text

Usted envía acciones con características y características de contexto a la API Rank.
- Personalizer decide si va a explorar el modelo actual o a explorar nuevas opciones para el modelo.
- El resultado de la clasificación se envía a EventHub.
El rango superior se devuelve al sistema como Id. de la acción de recompensa. El sistema presenta ese contenido y determina una puntuación de recompensa en función de las reglas de negocio propias.
El sistema devuelve la puntuación de recompensa al bucle de aprendizaje.
- Cuando Personalizer recibe la recompensa, esta se envía a EventHub.
- La clasificación y la recompensa están correlacionadas.
- El modelo de inteligencia artificial se actualiza en función de los resultados de la correlación.
- El motor de inferencia se actualiza con el nuevo modelo.

Personalizer vuelve a entrenar el modelo

Personalizer vuelve a entrenar el modelo en función del valor de Frecuencia de actualización del modelo del recurso de Personalizer de Azure Portal.

Personalizer usa todos los datos que se conservan actualmente, en función del valor de Retención de datos en el número de días en el recurso de Personalizer de Azure Portal.

La investigación que hay detrás de Personalizer

Personalizer se basa en una ciencia e investigación vanguardistas en el área del aprendizaje de refuerzo que incluyen documentos, actividades de investigación o áreas de exploración en curso de Microsoft Research.

Pasos siguientes

Más información sobre los escenarios principales para el Personalizer

Compartir a través de