Regresión rápida de bosque por cuantiles

Artículo
02/28/2024

En este artículo se describe un módulo del diseñador de Azure Machine Learning.

Use este componente para crear un modelo de regresión rápida de bosque por cuantiles en una canalización. La regresión rápida de bosque por cuantiles es útil si desea saber más acerca de la distribución del valor previsto, en lugar de obtener un valor de predicción medio único. Este método tiene muchas aplicaciones, como:

Predecir los precios
Estimar el rendimiento de estudiantes o aplicar gráficos de crecimiento para evaluar el desarrollo del niño
Detectar relaciones predictivas en casos donde hay solo una relación débil entre variables

Este algoritmo de regresión es un método de aprendizaje supervisado; es decir, requiere un conjunto de datos etiquetado, que incluya una columna de etiquetas. Dado que se trata de un algoritmo de regresión, la columna de etiquetas debe contener solo valores numéricos.

Más sobre la regresión por cuantiles

Hay muchos tipos diferentes de regresión. En resumen, la regresión consiste en ajustar un modelo a un destino expresado como un vector numérico. Pero los estadísticos llevan tiempo desarrollando métodos de regresión cada vez más avanzados.

La definición más sencilla de cuantil es un valor que divide un conjunto de datos en grupos de igual tamaño, y los valores de cuantiles marcan los límites entre los grupos. Estadísticamente hablando, los cuantiles son valores tomados a intervalos regulares desde el inverso de la función de distribución acumulativa (CDF) de una variable aleatoria.

Mientras que los modelos de regresión lineal intentan predecir el valor de una variable numérica usando una sola estimación, la media, a veces es necesario predecir el intervalo o la distribución completa de la variable de destino. Para estos fines, se han desarrollado técnicas, como la regresión bayesiana y la regresión por cuantiles.

La regresión por cuantiles le ayuda a comprender la distribución del valor de predicción. Los modelos de regresión por cuantiles basados en árbol, como el que se usa en este componente, tienen la ventaja adicional de que se pueden usar para predecir las distribuciones no paramétricas.

Cómo configurar la regresión rápida de bosque por cuantiles

Agregue el componente Fast Forest Quantile Regression (Regresión rápida de bosque por cuantiles) a la canalización del diseñador. Puede encontrar este componente en Machine Learning Algorithms (Algoritmos de aprendizaje automático), en la categoría Regresión.
En el panel derecho del componente Fast Forest Quantile Regression (Regresión rápida de bosque por cuantiles), especifique cómo quiere que se entrene el modelo. Para ello, establezca la opción Create trainer mode (Crear modo entrenador).
- Single Parameter (Parámetro único): Si sabe cómo quiere configurar el modelo, proporcione un conjunto específico de valores como argumentos. Al entrenar el modelo, use Entrenar modelo.
- Parameter Range (Intervalo de parámetros): Si no está seguro de los mejores parámetros, puede realizar un barrido de parámetros mediante el componente Tune Model Hyperparameters (Optimizar hiperparámetros del modelo). El instructor recorre en iteración varios valores que usted especifica para encontrar la configuración óptima.
Número de árboles, escriba el número máximo de árboles que se pueden crear en el conjunto. Si crea más árboles, en general conseguirá una mayor precisión, pero a costa de un tiempo de entrenamiento mayor.
Número de hojas, indique el número máximo hojas, o nodos terminales, que se pueden crear en un árbol.
En Número mínimo de instancias de aprendizaje necesarias para formar una hoja, indique el número mínimo de ejemplos casos que son necesarios para crear cualquier nodo terminal (hoja) en un árbol.

Al aumentar este valor, aumenta el umbral para crear reglas nuevas. Por ejemplo, con el valor predeterminado de 1, incluso un solo caso puede provocar que se cree una regla nueva. Si aumenta el valor a 5, los datos de entrenamiento tienen que contener, como mínimo, cinco casos que cumplan las mismas condiciones.
Fracción de ensacado, especifique un número entre 0 y 1 que represente la fracción de las muestras que se van a usar al generar cada grupo de cuantiles. Las muestras se eligen aleatoriamente, con reemplazo.
Fracción de división, escriba un número entre 0 y 1 que represente la fracción de las características que se van a usar en cada división del árbol. Las características usadas siempre se eligen aleatoriamente.
Cuantiles que se calcularán, escriba una lista separada por punto y coma de los cuantiles por los que desea entrenar al modelo y crear predicciones.

Por ejemplo, si desea crear un modelo que calcule por cuantiles, escribiría 0.25; 0.5; 0.75.
De manera opcional, escriba un valor en Valor de inicialización de números aleatorios para inicializar el generador de números aleatorios que usa el modelo. El valor predeterminado es 0, lo que significa que se elige un valor de inicialización aleatoria.

Debe proporcionar un valor si necesita reproducir los resultados en ejecuciones sucesivas con los mismos datos.
Conecte el conjunto de datos de entrenamiento y el modelo sin entrenar a uno de los componentes de entrenamiento:
- Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el componente Entrenar modelo.
- Si establece Create trainer mode (Crear modo entrenador) para Parameter Range (Intervalo de parámetros), use el componente Tune Model Hyperparameters (Optimizar hiperparámetros del modelo).
Advertencia
- Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.
- Si pasa un único conjunto de valores de parámetro al componente Tune Model Hyperparameters (Optimizar hiperparámetros del modelo), cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.
- Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.
Envíe la canalización.

Results

Una vez completado el entrenamiento:

Para guardar una instantánea del modelo entrenado, seleccione el componente de entrenamiento y cambie a la pestaña Resultados y registros del panel derecho. Haga clic en el icono Registro de un conjunto de datos. Puede encontrar el modelo guardado como componente en el árbol de componentes.

Métricas de evaluación

Puede usar el componente Evaluate Model (Evaluar modelo ) para evaluar el modelo entrenado. Para regresión cuantil de bosque rápido, las métricas son las siguientes.

Pérdida cuantil: se trata de una medida del error para un cuantil específico en el modelo.
Pérdida media de cuantiles: esto es simplemente el promedio de los valores de pérdida cuantil en todos los cuantiles que se consideran en el modelo. Proporciona una medida general del rendimiento del modelo en todos los cuantiles.

Pasos siguientes

Vea el conjunto de componentes disponibles para Azure Machine Learning.

Share via