Módulos de selección de características
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
En este artículo se describen los módulos de Machine Learning Studio (clásico) que puede usar para la selección de características.
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
La selección de características es una herramienta importante en el aprendizaje automático. Machine Learning Studio (clásico) proporciona varios métodos para realizar la selección de características. Elija un método de selección de características en función del tipo de datos que tenga y los requisitos de la técnica estadística que se aplica.
En este artículo se describe:
- ¿Qué es la selección de características?
- Módulos de selección de características en Machine Learning
- Uso de la selección de características
- Algoritmos que incluyen la selección de características
Cada módulo de selección de características de Machine Learning Studio (clásico) usa un conjunto de datos como entrada. A continuación, el módulo aplica métodos estadísticos conocidos a las columnas de datos que se proporcionan como entrada. La salida es un conjunto de métricas que pueden ayudarle a identificar las columnas que tienen el mejor valor de información.
Acerca de la selección de características
En el aprendizaje automático y las estadísticas , la selección de características es el proceso de seleccionar un subconjunto de características relevantes y útiles para usar en la creación de un modelo analítico. La selección de características ayuda a restringir el campo de datos a las entradas más valiosas. Restringir el campo de datos ayuda a reducir el ruido y mejorar el rendimiento del entrenamiento.
A menudo, las características se crean a partir de datos sin procesar a través de un proceso de ingeniería de características. Por ejemplo, una marca de tiempo en sí misma podría no ser útil para el modelado hasta que la información se transforme en unidades de días, meses o categorías que son relevantes para el problema, como días festivos frente a días laborables.
Los nuevos usuarios del aprendizaje automático podrían verse tentados a incluir todos los datos disponibles. Es posible que esperen que el algoritmo encuentre algo interesante mediante el uso de más datos. Sin embargo, la selección de características normalmente puede mejorar el modelo y evitar problemas comunes:
- Los datos contienen características redundantes o irrelevantes, que no proporcionan más información que las características seleccionadas actualmente.
- Los datos contienen características irrelevantes que no proporcionan información útil en ningún contexto. Incluir campos irrelevantes no solo aumenta el tiempo necesario para entrenar los datos, sino que también puede provocar resultados deficientes.
- Con algunos algoritmos, tener información duplicada en los datos de entrenamiento puede provocar un fenómeno denominado multicollinealidad. En la multicollinealidad, la presencia de dos variables altamente correlacionadas puede hacer que los cálculos de otras variables se vuelvan mucho menos precisos.
Sugerencia
Algunos algoritmos de aprendizaje automático de Machine Learning Studio (clásico) también usan la selección de características o la reducción de dimensionalidad como parte del proceso de entrenamiento. Cuando se usan estos aprendices, puede omitir el proceso de selección de características y dejar que el algoritmo decida las mejores entradas.
Uso de la selección de características en un experimento
La selección de características normalmente se realiza cuando se exploran datos y se desarrolla un nuevo modelo. Tenga en cuenta estas sugerencias cuando use la selección de características:
- Al realizar pruebas, agregue la selección de características al experimento para generar puntuaciones que informen a la decisión de qué columnas usar.
- Quite la selección de características del experimento al operacionalizar un modelo.
- Ejecute la selección de características periódicamente para asegurarse de que los datos y las mejores características no han cambiado.
La selección de características es diferente de la ingeniería de características, que se centra en la creación de nuevas características a partir de los datos existentes.
Recursos
- Para obtener una explicación de las distintas formas en que puede diseñar características o seleccionar las mejores características como parte del proceso de ciencia de datos, consulte Ingeniería de características en ciencia de datos.
- Para ver un tutorial sobre la selección de características en el proceso de ciencia de datos, consulte Filtrado de características de los datos: selección de características.
Métodos de selección de características en Machine Learning Studio (clásico)
Los siguientes módulos de selección de características se proporcionan en Machine Learning Studio (clásico).
Selección de características basada en filtro
Al usar el módulo Selección de características basada en filtros, puede elegir entre métodos de selección de características conocidos. El módulo genera las estadísticas de selección de características y el conjunto de datos filtrado.
La elección de un método de selección de filtro depende en parte de qué tipo de datos de entrada tiene.
Método | Entradas de característica admitidas | Etiquetas admitidas |
---|---|---|
Correlación de Pearson | Solo columnas numéricas y lógicas | Una sola columna numérica o lógica |
Puntuación de información mutua | Todos los tipos de datos | Una sola columna de cualquier tipo de datos |
Coeficiente de correlación de Kendall | Solo columnas numéricas y lógicas | Una sola columna numérica o lógica Las columnas deben tener valores que se puedan clasificar |
Coeficiente de correlación de Spearman | Solo columnas numéricas y lógicas | Una sola columna numérica o lógica |
Estadística de chi cuadrado | Todos los tipos de datos | Una sola columna de cualquier tipo de datos |
Puntuación de Fisher | Solo columnas numéricas y lógicas | Una sola columna numérica o lógica A las columnas de cadena se les asigna una puntuación de 0. |
Selección de características basada en recuento | Todos los tipos de datos | No se requiere una columna de etiqueta |
Análisis discriminante lineal de Fisher
El análisis discriminante lineal es una técnica de aprendizaje supervisado que se puede usar para clasificar variables numéricas junto con un único destino categórico. El método es útil para la selección de características porque identifica la combinación de características o parámetros que mejor separa los grupos.
Puede usar el módulo Linear Discriminant Analysis para generar un conjunto de puntuaciones para su revisión, o bien puede usar el conjunto de datos de reemplazo generado por el módulo para el entrenamiento.
Importancia de la característica de permutación
Use el módulo Permutation Feature Importance ( Importancia de la característica de permutación) para simular el efecto de cualquier conjunto de características en el conjunto de datos. El módulo calcula las puntuaciones de rendimiento de un modelo en función del control aleatorio de valores de características.
Las puntuaciones que devuelve el módulo representan el posible cambio en la precisión de un modelo entrenado si cambian los valores. Puede usar las puntuaciones para determinar el efecto de las variables individuales en el modelo.
Algoritmos de aprendizaje automático que incorporan la selección de características
Algunos algoritmos de aprendizaje automático de Machine Learning Studio (clásico) optimizan la selección de características durante el entrenamiento. También pueden proporcionar parámetros que ayuden con la selección de características. Si usa un método que tiene su propia heurística para elegir características, a menudo es mejor confiar en esa heurística en lugar de preseleccionar características.
Estos algoritmos y métodos de selección de características se usan internamente:
Modelos de árbol de decisión potenciados para clasificación y regresión
En estos módulos, se crea internamente un resumen de características. Las características que tienen un peso de 0 no se usan en las divisiones de árbol. Al visualizar el mejor modelo entrenado, puede ver cada uno de los árboles. Si una característica nunca se usa en ningún árbol, es probable que sea candidata para su eliminación. Para optimizar la selección, también es una buena idea usar el barrido de parámetros.
Modelos de regresión logística y modelos lineales
Los módulos para la regresión logística binaria y multiclase admiten la regularización L1 y L2. La regularización es una manera de agregar restricciones durante el entrenamiento para especificar manualmente un aspecto del modelo aprendido. Normalmente, la regularización se usa para evitar el sobreajuste. Machine Learning Studio (clásico) admite la regularización de las normas L1 o L2 del vector de peso en algoritmos de clasificación lineal:
- La regularización L1 es útil si el objetivo es tener un modelo lo más disperso posible.
- La regularización L2 impide que una única coordenada del vector de peso crezca demasiado en magnitud. Es útil si el objetivo es tener un modelo con pesos generales pequeños.
- La regresión logística regularizada L1 es más agresiva al asignar un peso de 0 a las características. Es útil para identificar las características que se pueden quitar.
Notas técnicas
Todos los módulos de selección de características y los métodos analíticos que admiten columnas numéricas y lógicas también admiten columnas date-time y timespan. Estas columnas se tratan como columnas numéricas simples en las que cada valor es igual al número de tics.
Tareas relacionadas
Los módulos siguientes no están en la categoría Selección de características, pero puede usarlos para tareas relacionadas. Los módulos pueden ayudarle a reducir la dimensionalidad de los datos o a buscar correlaciones:
Si tiene un conjunto de datos que tiene muchas columnas, use el módulo Análisis de componentes principales para detectar las columnas que contienen más información sobre los datos originales.
Este módulo se encuentra en la categoría Transformación de datos, en Escala y reducción.
La caracterización basada en recuento es una nueva técnica que puede usar para determinar características útiles mediante grandes conjuntos de datos. Use estos módulos para analizar conjuntos de datos para encontrar las mejores características, guardar un conjunto de características para usarlo con datos nuevos o actualizar un conjunto de características existente.
Use este módulo para calcular un conjunto de coeficientes de correlación de Pearson para cada par posible de variables en el conjunto de datos de entrada. El coeficiente de correlación de Pearson, también denominado prueba R de Pearson, es un valor estadístico que mide la relación lineal entre dos variables.
Este módulo está en la categoría Funciones estadísticas .
Lista de módulos
La categoría Selección de características incluye estos módulos:
- Selección de características basada en filtros: identifica las características de un conjunto de datos que tienen la mayor potencia predictiva.
- Análisis discriminante lineal de Linear de Linear: identifica la combinación lineal de variables de características que pueden agrupar mejor los datos en clases independientes.
- Importancia de la característica de permutación: calcula las puntuaciones de importancia de las características de permutación de variables de características para un modelo entrenado y un conjunto de datos de prueba.