Compartir por


Exploración

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

Con la exploración, Personalizer puede ofrecer buenos resultados, incluso cuando cambia el comportamiento del usuario.

Cuando Personalizer recibe una llamada de Rank, devuelve un RewardActionID que hace una de estas acciones:

  • Usa la relevancia conocida para buscar una coincidencia con el comportamiento del usuario que sea más probable en función del modelo de Machine Learning actual.
  • Utiliza la exploración, que no coincide con la acción que tiene la mayor probabilidad en la clasificación.

Personalizer usa actualmente un algoritmo llamado epsilon-greedy para explorar.

Selección de un ajuste de exploración

Configure el porcentaje de tráfico para usar en la exploración en la página Configuración de Azure Portal para Personalizer. Esta configuración determina el porcentaje de llamadas a Rank que realiza la exploración.

Personalizer determina si se va a explorar o usar la acción del modelo que sea más probable en cada llamada de clasificación. Esto es diferente del comportamiento en algunos marcos A/B que bloquean un tratamiento en determinados identificadores de usuario.

Procedimiento recomendado para seleccionar un ajuste de exploración

Elegir una configuración de exploración es una decisión empresarial sobre la proporción de interacciones de los usuarios con las que explorar a fin de mejorar el modelo.

Un valor de cero anularía muchas de las ventajas de Personalizer. Con esta configuración, Personalizer no utiliza las interacciones del usuario para detectar las mejores interacciones del usuario. Esto conduce al estancamiento del modelo, un desfase y, en última instancia, un menor rendimiento.

Un valor demasiado alto anularía las ventajas del aprendizaje a partir de comportamiento del usuario. Establecerlo al 100 % implica una aleatorización constante, y cualquier comportamiento aprendido de los usuarios no influiría en el resultado.

Es importante que no se cambie el comportamiento de la aplicación en función de si Personalizer está explorando o usando la acción que mejor ha aprendido. Esto llevaría a sesgos de aprendizaje que en última instancia disminuirían el rendimiento potencial.

Pasos siguientes

Aprendizaje de refuerzo