Evaluación de la importancia de la característica

Artículo
01/19/2024

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

Puede evaluar lo importante que era cada característica para el modelo de aprendizaje automático de Personalizer mediante la realización de una evaluación de características de los datos de registro históricos. Las evaluaciones de características son útiles para:

Saber qué características son las más o menos importantes para el modelo.
Proponer características adicionales que pueden ser beneficiosas para el aprendizaje, basándose en las características que actualmente son importantes para el modelo.
Identificar características potencialmente no importantes o no útiles que se deben tener en cuenta para su posterior análisis o eliminación.
Solucionar problemas y errores comunes que pueden producirse al diseñar características y enviarlas a Personalizer. Por ejemplo, el uso de GUID, marcas de tiempo u otras características que suelen ser dispersas puede plantear problemas. Obtenga más información sobre cómo mejorar las características.

Definición de la evaluación de características

Las evaluaciones de características se realizan mediante el entrenamiento y la ejecución de una copia de la configuración del modelo actual en los datos de registro recopilados históricamente en un período de tiempo especificado. Las características se omiten de una en una para medir la diferencia en el rendimiento del modelo con y sin cada característica. Dado que las evaluaciones de características se realizan en datos históricos, no hay ninguna garantía de que estos patrones se observen en datos futuros. Sin embargo, esta información puede seguir siendo relevante para los datos futuros si los datos registrados han capturado suficiente variabilidad o propiedades no estáticas de los datos. La ejecución de una evaluación de características no afecta al rendimiento del modelo actual.

La puntuación de la importancia de una característica es una medida del impacto relativo de la característica en la recompensa durante el período de evaluación. Las puntuaciones de importancia de las características son un número entre 0 (menos importante) y 100 (más importante) y se muestran en la evaluación de características. Dado que la evaluación se ejecuta durante un período de tiempo específico, la importancia de las características puede cambiar a medida que se envían datos adicionales a Personalizer y a medida que los usuarios, escenarios y datos cambian con el tiempo.

Creación de una evaluación de características

Para obtener puntuaciones de importancia de características, debe crear una evaluación de características durante un período de datos registrados para generar un informe que contenga las puntuaciones de importancia de las características. Este informe se puede ver en Azure Portal. Para crear una evaluación de características:

Vaya al sitio web de Azure Portal.
Seleccione el recurso Personalizer.
Seleccione la sección Monitor en el panel de navegación lateral.
Seleccione la pestaña Características.
Seleccione "Crear informe", y debería aparecer una nueva pantalla.
Elija un nombre para el informe.
Elija las horas de inicio y finalización para el período de evaluación.
Seleccione "Crear informe".

Screenshot that shows how to create a Feature Evaluation in your Personalizer resource by clicking on

Screenshot that shows in the creation window and how to fill in the fields for your report including the name, start date, and end date.

A continuación, el nombre del informe debe aparecer en la tabla de informes siguiente. La creación de una evaluación de características es un proceso de larga duración, donde el tiempo de finalización depende del volumen de datos enviados a Personalizer durante el período de evaluación. Mientras se genera el informe, la columna Estado indicará "En ejecución" para la evaluación y se actualizará a "Correcto" una vez completada. Vuelva a comprobar periódicamente si la evaluación ha finalizado.

Puede ejecutar varias evaluaciones de características durante diferentes períodos de tiempo para los que el recurso Personalizer tiene datos de registro. Asegúrese de que el período de retención de datos esté establecido en una duración lo suficientemente larga como para permitirle realizar evaluaciones de los datos más antiguos.

Interpretación de las puntuaciones de importancia de las características

Características con una puntuación de importancia alta

Las características con puntuaciones de mayor importancia influyeron más en el modelo durante el período de evaluación en comparación con las otras características. Las características importantes pueden proporcionar inspiración para diseñar características adicionales que se incluirán en el modelo. Por ejemplo, si ve que las características de contexto "IsWeekend" o "IsWeekday" tienen una importancia alta para los supermercados, puede darse el caso de que los días festivos o los puentes también sean factores importantes, por lo que es posible que quiera considerar la posibilidad de agregar características que capturen esta información.

Características con una puntuación de importancia baja

Las características con puntuaciones de importancia baja son buenas candidatas para su posterior análisis. No todas las características con una puntuación baja necesariamente son malas o nada útiles, ya que las puntuaciones bajas pueden producirse por uno o varios motivos. La lista siguiente puede ayudarle a empezar a analizar por qué las características pueden tener puntuaciones bajas:

La característica apenas se observó en los datos durante el período de evaluación.
- Si el número de ocurrencias de esta característica es bajo en comparación con otras características, esto puede indicar que la característica no estaba presente con la frecuencia suficiente para que el modelo determine si es valiosa o no.
Los valores de la características no tenían mucha diversidad ni variación.
- Si el número de valores únicos de esta característica es inferior al esperado, esto puede indicar que la característica no varió mucho durante el período de evaluación y no proporcionará información significativa.
Los valores de la característica eran demasiado ruidosos (aleatorios) o demasiado distintos, y aportaron poco valor.
- Compruebe el Número de valores únicos en la evaluación de características. Si el número de valores únicos de esta característica es mayor que el esperado, o alto en comparación con otras características, esto puede indicar que la característica era demasiado ruidosa durante el período de evaluación.
Hay un problema con el formato o los datos.
- Asegúrese de que las características tienen formato y se envían a Personalizer de la manera esperada.
Es posible que la característica no sea valiosa para el entrenamiento del modelo y el rendimiento si la puntuación de la característica es baja y las razones anteriores no se aplican.
- Considere la posibilidad de quitar la característica, ya que no ayuda al modelo a maximizar la recompensa media.

La eliminación de características con puntuaciones de importancia baja puede ayudar a acelerar el entrenamiento del modelo mediante la reducción de la cantidad de datos necesarios para el aprendizaje. También puede mejorar el rendimiento del modelo. Sin embargo, esto no está garantizado, y es posible que se necesite un análisis adicional. Obtenga más información sobre el diseño de características de contexto y acción.

Problemas comunes y pasos para mejorar las características

Envío de características con una cardinalidad alta. Las características con una cardinalidad alta son aquellas que tienen muchos valores distintos que es probable que no se repitan en muchos eventos. Por ejemplo, Personalizer no debe usarse con información de identificación personal específica de un individuo (como el nombre, el número de teléfono, los números de tarjetas de crédito y las direcciones IP).
Envío de identificadores de usuario. Con un gran número de usuarios, es poco probable que esta información sea relevante para el aprendizaje de Personalizer para maximizar la puntuación de recompensa media. El envío de identificadores de usuario (incluso si no es información personal) probablemente agregará más ruido al modelo y no se recomienda.
Las características son demasiado dispersas. Los valores son distintos y rara vez se obtienen más de unas cuantas veces.. Las marcas de tiempo precisas hasta la segunda pueden ser muy dispersas. Se puede hacer más denso (y, por lo tanto, efectivo) agrupando horas en "mañana", "mediodía" o "tarde", por ejemplo.

La información de ubicación también suele beneficiarse de la creación de clasificaciones más amplias. Por ejemplo, una coordenada de latitud-longitud como Lat: 47,67402°N, Long: 122,12154°W es demasiado precisa y obliga al modelo a aprender la latitud y la longitud como dimensiones distintas. Cuando intenta personalizar según la información de ubicación, resulta de ayuda agrupar la información de ubicación en sectores más grandes. Una manera fácil de hacerlo es elegir una precisión de redondeo adecuada para los números de lat-long y combinar la latitud y la longitud en "áreas" convirtiéndolas en una sola cadena. Por ejemplo, una buena manera de representar Lat: 47,67402°N, Long: 122,12154 W en regiones aproximadamente de unos pocos kilómetros de ancho sería "ubicación": "34.3, 12.1".

Expansión de los conjuntos de características con información extrapolada También puede obtener más características pensando en atributos sin explorar que se pueden derivar de la información que ya tiene. Por ejemplo, en una personalización ficticia de una lista de películas, ¿es posible que el comportamiento de los usuarios en el fin de semana sea distinto que en los días laborables? El tiempo puede ampliarse para tener un atributo "weekend" o "weekday". En los días festivos nacionales/regionales de carácter cultural, ¿hay más asistencia a determinados tipos de película? Por ejemplo, un atributo "Halloween" es útil en aquellos lugares en que es relevante. ¿Es posible que la lluvia afecte considerablemente a muchas personas a la hora de elegir una película? En cuanto al tiempo y al lugar, un servicio meteorológico puede proporcionar dicha información y esta se puede agregar como una característica adicional.

Pasos siguientes

Analice el rendimiento de las directivas con una evaluación sin conexión con Personalizer.