Share via


Módulos de selección de características

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se describen los módulos de Machine Learning Studio (clásico) que puede usar para la selección de características.

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

La selección de características es una herramienta importante en el aprendizaje automático. Machine Learning Studio (clásico) proporciona varios métodos para realizar la selección de características. Elija un método de selección de características en función del tipo de datos que tenga y los requisitos de la técnica estadística que se aplica.

En este artículo se describe:

Cada módulo de selección de características de Machine Learning Studio (clásico) usa un conjunto de datos como entrada. A continuación, el módulo aplica métodos estadísticos conocidos a las columnas de datos que se proporcionan como entrada. La salida es un conjunto de métricas que pueden ayudarle a identificar las columnas que tienen el mejor valor de información.

Acerca de la selección de características

En el aprendizaje automático y las estadísticas , la selección de características es el proceso de seleccionar un subconjunto de características relevantes y útiles para usar en la creación de un modelo analítico. La selección de características ayuda a restringir el campo de datos a las entradas más valiosas. Restringir el campo de datos ayuda a reducir el ruido y mejorar el rendimiento del entrenamiento.

A menudo, las características se crean a partir de datos sin procesar a través de un proceso de ingeniería de características. Por ejemplo, una marca de tiempo en sí misma podría no ser útil para el modelado hasta que la información se transforme en unidades de días, meses o categorías que son relevantes para el problema, como días festivos frente a días laborables.

Los nuevos usuarios del aprendizaje automático podrían verse tentados a incluir todos los datos disponibles. Es posible que esperen que el algoritmo encuentre algo interesante mediante el uso de más datos. Sin embargo, la selección de características normalmente puede mejorar el modelo y evitar problemas comunes:

  • Los datos contienen características redundantes o irrelevantes, que no proporcionan más información que las características seleccionadas actualmente.
  • Los datos contienen características irrelevantes que no proporcionan información útil en ningún contexto. Incluir campos irrelevantes no solo aumenta el tiempo necesario para entrenar los datos, sino que también puede provocar resultados deficientes.
  • Con algunos algoritmos, tener información duplicada en los datos de entrenamiento puede provocar un fenómeno denominado multicollinealidad. En la multicollinealidad, la presencia de dos variables altamente correlacionadas puede hacer que los cálculos de otras variables se vuelvan mucho menos precisos.

Sugerencia

Algunos algoritmos de aprendizaje automático de Machine Learning Studio (clásico) también usan la selección de características o la reducción de dimensionalidad como parte del proceso de entrenamiento. Cuando se usan estos aprendices, puede omitir el proceso de selección de características y dejar que el algoritmo decida las mejores entradas.

Uso de la selección de características en un experimento

La selección de características normalmente se realiza cuando se exploran datos y se desarrolla un nuevo modelo. Tenga en cuenta estas sugerencias cuando use la selección de características:

  • Al realizar pruebas, agregue la selección de características al experimento para generar puntuaciones que informen a la decisión de qué columnas usar.
  • Quite la selección de características del experimento al operacionalizar un modelo.
  • Ejecute la selección de características periódicamente para asegurarse de que los datos y las mejores características no han cambiado.

La selección de características es diferente de la ingeniería de características, que se centra en la creación de nuevas características a partir de los datos existentes.

Recursos

Métodos de selección de características en Machine Learning Studio (clásico)

Los siguientes módulos de selección de características se proporcionan en Machine Learning Studio (clásico).

Selección de características basada en filtro

Al usar el módulo Selección de características basada en filtros, puede elegir entre métodos de selección de características conocidos. El módulo genera las estadísticas de selección de características y el conjunto de datos filtrado.

La elección de un método de selección de filtro depende en parte de qué tipo de datos de entrada tiene.

Método Entradas de característica admitidas Etiquetas admitidas
Correlación de Pearson Solo columnas numéricas y lógicas Una sola columna numérica o lógica
Puntuación de información mutua Todos los tipos de datos Una sola columna de cualquier tipo de datos
Coeficiente de correlación de Kendall Solo columnas numéricas y lógicas Una sola columna numérica o lógica

Las columnas deben tener valores que se puedan clasificar
Coeficiente de correlación de Spearman Solo columnas numéricas y lógicas Una sola columna numérica o lógica
Estadística de chi cuadrado Todos los tipos de datos Una sola columna de cualquier tipo de datos
Puntuación de Fisher Solo columnas numéricas y lógicas Una sola columna numérica o lógica

A las columnas de cadena se les asigna una puntuación de 0.
Selección de características basada en recuento Todos los tipos de datos No se requiere una columna de etiqueta

Análisis discriminante lineal de Fisher

El análisis discriminante lineal es una técnica de aprendizaje supervisado que se puede usar para clasificar variables numéricas junto con un único destino categórico. El método es útil para la selección de características porque identifica la combinación de características o parámetros que mejor separa los grupos.

Puede usar el módulo Linear Discriminant Analysis para generar un conjunto de puntuaciones para su revisión, o bien puede usar el conjunto de datos de reemplazo generado por el módulo para el entrenamiento.

Importancia de la característica de permutación

Use el módulo Permutation Feature Importance ( Importancia de la característica de permutación) para simular el efecto de cualquier conjunto de características en el conjunto de datos. El módulo calcula las puntuaciones de rendimiento de un modelo en función del control aleatorio de valores de características.

Las puntuaciones que devuelve el módulo representan el posible cambio en la precisión de un modelo entrenado si cambian los valores. Puede usar las puntuaciones para determinar el efecto de las variables individuales en el modelo.

Algoritmos de aprendizaje automático que incorporan la selección de características

Algunos algoritmos de aprendizaje automático de Machine Learning Studio (clásico) optimizan la selección de características durante el entrenamiento. También pueden proporcionar parámetros que ayuden con la selección de características. Si usa un método que tiene su propia heurística para elegir características, a menudo es mejor confiar en esa heurística en lugar de preseleccionar características.

Estos algoritmos y métodos de selección de características se usan internamente:

  • Modelos de árbol de decisión potenciados para clasificación y regresión

    En estos módulos, se crea internamente un resumen de características. Las características que tienen un peso de 0 no se usan en las divisiones de árbol. Al visualizar el mejor modelo entrenado, puede ver cada uno de los árboles. Si una característica nunca se usa en ningún árbol, es probable que sea candidata para su eliminación. Para optimizar la selección, también es una buena idea usar el barrido de parámetros.

  • Modelos de regresión logística y modelos lineales

    Los módulos para la regresión logística binaria y multiclase admiten la regularización L1 y L2. La regularización es una manera de agregar restricciones durante el entrenamiento para especificar manualmente un aspecto del modelo aprendido. Normalmente, la regularización se usa para evitar el sobreajuste. Machine Learning Studio (clásico) admite la regularización de las normas L1 o L2 del vector de peso en algoritmos de clasificación lineal:

    • La regularización L1 es útil si el objetivo es tener un modelo lo más disperso posible.
    • La regularización L2 impide que una única coordenada del vector de peso crezca demasiado en magnitud. Es útil si el objetivo es tener un modelo con pesos generales pequeños.
    • La regresión logística regularizada L1 es más agresiva al asignar un peso de 0 a las características. Es útil para identificar las características que se pueden quitar.

Notas técnicas

Todos los módulos de selección de características y los métodos analíticos que admiten columnas numéricas y lógicas también admiten columnas date-time y timespan. Estas columnas se tratan como columnas numéricas simples en las que cada valor es igual al número de tics.

Los módulos siguientes no están en la categoría Selección de características, pero puede usarlos para tareas relacionadas. Los módulos pueden ayudarle a reducir la dimensionalidad de los datos o a buscar correlaciones:

Si tiene un conjunto de datos que tiene muchas columnas, use el módulo Análisis de componentes principales para detectar las columnas que contienen más información sobre los datos originales.

Este módulo se encuentra en la categoría Transformación de datos, en Escala y reducción.

La caracterización basada en recuento es una nueva técnica que puede usar para determinar características útiles mediante grandes conjuntos de datos. Use estos módulos para analizar conjuntos de datos para encontrar las mejores características, guardar un conjunto de características para usarlo con datos nuevos o actualizar un conjunto de características existente.

Use este módulo para calcular un conjunto de coeficientes de correlación de Pearson para cada par posible de variables en el conjunto de datos de entrada. El coeficiente de correlación de Pearson, también denominado prueba R de Pearson, es un valor estadístico que mide la relación lineal entre dos variables.

Este módulo está en la categoría Funciones estadísticas .

Lista de módulos

La categoría Selección de características incluye estos módulos:

Consulte también