Características y limitaciones de Personalizer

Artículo
09/03/2024

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

Personalizador de Azure AI puede funcionar en muchos escenarios. Para comprender dónde puede aplicar Personalizer, asegúrese de que los requisitos de su escenario cumplen las expectativas para que Personalizer funcione. Para saber si se debe usar Personalizer y cómo integrarlo en las aplicaciones, consulte Casos de uso para Personalizer. Encontrará criterios e instrucciones sobre cómo elegir casos de uso, diseñar características y poner funciones de recompensa para los usos de Personalizer.

Antes de leer este artículo, resulta útil conocer cierta información general sobre cómo funciona Personalizer.

Selección de características para Personalizer

La personalización del contenido depende del hecho de tener información útil sobre el contenido y el usuario. Para algunas aplicaciones y sectores, algunas características de usuario se pueden considerar, directa o indirectamente, como discriminatorias y potencialmente ilegales. Consulte la integración de Personalizer y las instrucciones de uso responsable para evaluar las características que se usarán con Personalizer.

Procesamiento de recompensas para Personalizer

Personalizer aprende a mejorar las decisiones de acción, en función de la puntuación de recompensa que proporciona la lógica de negocios de la aplicación. Una puntuación de recompensa bien compilada puede convertirse, a corto plazo, en un obstáculo para un objetivo empresarial ligado a una misión de la organización. Por ejemplo, si se recompensa en base al número de clics, Personalizer priorizará el número de clics a costa de todo lo demás, incluso si aquello en lo que se hace clic despista al usuario o no está ligado a un objetivo empresarial. Por el contrario, un sitio de noticias podría querer establecer recompensas vinculadas a algo más significativo que los clics. Por ejemplo, cuestiones como "¿El usuario dedicó el tiempo suficiente a leer el contenido?" o "¿El usuario hizo clic en artículos o referencias relevantes?" Con Personalizer, es fácil vincular estrechamente las métricas a las recompensas. Sin embargo, debe tener cuidado de no confundir la involucración del usuario a corto plazo con los resultados deseados.

Consecuencias no intencionadas de las puntuaciones de recompensa

Aunque se compilen con las mejores intenciones, las puntuaciones de recompensa pueden traer consecuencias imprevistas o resultados no intencionados, debido a la forma en la que Personalizer clasifica el contenido.

Considere los siguientes ejemplos:

Una recompensa de personalización del contenido de los vídeos basada en el porcentaje de minutos de vídeo vistos llevará, seguramente, a que se clasifiquen en primer lugar los vídeos más cortos.
Recompensar los recursos compartidos a través de las redes sociales, sin un análisis de sentimiento sobre cómo se comparten o sobre el contenido en sí, podría provocar que se clasificara en primer lugar contenido ofensivo, no moderado o provocador. Este tipo de contenido tiende a atraer mucha involucración de los usuarios, pero a menudo es perjudicial.
Recompensar las acciones en elementos de la interfaz de usuario que los usuarios no tienen previsto cambiar podría interferir con la facilidad de uso y la previsibilidad de la interfaz de usuario. Por ejemplo, los botones que cambian la ubicación o el propósito, sin generar una advertencia, pueden dificultar que determinados grupos de usuarios permanezcan productivos.

Implemente estos procedimientos recomendados:

Realice varios experimentos en el sistema sin conexión, usando diferentes enfoques de recompensas, para comprender el impacto y los posibles efectos secundarios.
Evalúe sus funciones de recompensa y pregúntese si una persona ingenua podría modificar su interpretación, lo que podría dar lugar a resultados no intencionados o no deseados.
Archive la información y los recursos como, por ejemplo, los modelos, las directivas de aprendizaje y el resto de datos que usa Personalizer para funcionar. Así se podrán reproducir los resultados.

Instrucciones generales para comprender y mejorar el rendimiento

Dado que Personalizer se basa en el aprendizaje de refuerzo y aprende de las recompensas para tomar mejores decisiones con el tiempo, el rendimiento no se mide según los principios del aprendizaje supervisado tradicional, que se usan en clasificadores, como la precisión y las coincidencias. El rendimiento de Personalizer se mide directamente como la suma de las puntuaciones de recompensa que recibe de la aplicación, a través de la API de Reward (Recompensa).

Al usar Personalizer, la interfaz de usuario del producto en Azure Portal proporciona información de rendimiento para que pueda supervisar el servicio y tomar decisiones sobre él. El rendimiento se puede ver de las siguientes maneras:

Si Personalizer está en modo de aprendizaje en línea, puede realizar evaluaciones sin conexión.
Si Personalizer está en modo de aprendiz, puede ver las métricas de rendimiento (eventos imitados y recompensas imitadas) en el panel Evaluación de Azure Portal.

Se recomienda realizar evaluaciones frecuentes sin conexión para una supervisión consistente. Esta labor le ayudará a supervisar las tendencias y a garantizar la eficacia. Por ejemplo, podría decidir colocar temporalmente Personalizer en modo de aprendiz si hay un descenso en el rendimiento de la recompensa.

Estimaciones de rendimiento de Personalizer que se muestran en Evaluaciones sin conexión: Limitaciones

Definimos el "rendimiento" de Personalizer como las recompensas totales que obtiene el servicio durante el uso. Las estimaciones de rendimiento de Personalizer que se muestran en Evaluaciones sin conexión se calculan en lugar de medirse. Es importante comprender las limitaciones de estas estimaciones:

Las estimaciones se basan en datos anteriores, por lo que el rendimiento futuro puede variar a medida que cambian el mundo y los usuarios.
Las estimaciones para el rendimiento de línea base se calculan de manera probabilística. Por este motivo, la banda de confianza para la recompensa media de línea base es importante. La estimación será más precisa con más eventos. Si usa un número menor de acciones en cada llamada a Rank, la estimación del rendimiento puede aumentar en confianza, ya que hay una probabilidad más alta de que Personalizer pueda elegir cualquiera de ellas (incluida la acción de línea base) para cada evento.
Personalizer entrena constantemente un modelo, casi en tiempo real, para mejorar las acciones elegidas para cada evento y, en consecuencia, esto afectará al total de recompensas obtenidas. El rendimiento del modelo variará con el tiempo, en función de los datos de entrenamiento de cada momento.
Las decisiones de exploración y acción son procesos estocásticos guiados por el modelo de Personalizer. Los números aleatorios utilizados para estos procesos estocásticos se inicializarán desde el Id. de evento. Para garantizar la reproducibilidad de explore-exploit y otros procesos estocásticos, use el mismo Id. de evento.
El rendimiento en línea puede limitarse mediante la exploración. Reducir la configuración de exploración limitará la cantidad de información que se recopila para mantenerse al día de las tendencias cambiantes y los patrones de uso, por lo que el ajuste de esta configuración depende de cada caso de uso. Algunos casos de uso merecen comenzar con una configuración de exploración más alta y después reducirla con el tiempo (por ejemplo, comenzar con el 30 % y reducirla hasta el 10 %).

Compruebe los modelos existentes que puedan crear sesgos no intencionados en Personalizer

Las recomendaciones existentes, la segmentación de clientes y las salidas del modelo de tendencias pueden usarse en la aplicación como entradas para Personalizer. Personalizer aprende a ignorar las características que no contribuyen a las recompensas. Revise y evalúe los modelos de tendencias para determinar si predicen correctamente las recompensas y si contienen sesgos fuertes, que podrían generar daños como efecto secundario. Por ejemplo, busque recomendaciones que podrían basarse en estereotipos dañinos. Considere la posibilidad de usar herramientas como FairLearn para facilitar el proceso.

Evaluaciones proactivas durante el ciclo de vida del proyecto

Analice la posibilidad de crear métodos para que los miembros del equipo, los usuarios y los propietarios de la empresa informen sobre sus preocupaciones acerca de un uso responsable, y de crear un proceso que priorice la resolución de estas. Considere la posibilidad de tratar a las tareas para el uso responsable de la misma forma que a otras tareas transversales del ciclo de vida de la aplicación como, por ejemplo, la tareas relacionadas con la experiencia del usuario, la seguridad o con DevOps. Las tareas relacionadas con el uso responsable y sus requisitos no deben dejarse para el último momento. El uso responsable debe analizarse e implementarse a lo largo de todo el ciclo de vida de la aplicación.

Compartir vía