Compartir vía


Barrido y selección de modelos para la previsión en AutoML

Este artículo se centra en cómo AutoML busca y selecciona modelos de previsión. Consulte el artículo de información general sobre los métodos para obtener más información sobre la metodología de previsión en AutoML. Puede encontrar instrucciones y ejemplos para entrenar modelos de previsión en AutoML en nuestro artículo Configuración de AutoML para la previsión de series temporales.

Barrido de modelos

La tarea central de AutoML es entrenar y evaluar varios modelos y elegir el mejor con respecto a la métrica principal dada. La palabra "modelo" aquí hace referencia a la clase de modelo (como ARIMA o Bosque aleatorio) y a la configuración de hiperparámetros específica que distingue los modelos dentro de una clase. Por ejemplo, ARIMA hace referencia a una clase de modelos que comparten una plantilla matemática y un conjunto de supuestos estadísticos. El entrenamiento, o ajuste, de un modelo ARIMA requiere una lista de números enteros positivos que especifiquen la forma matemática precisa del modelo; son los hiperparámetros. ARIMA(1, 0, 1) y ARIMA(2, 1, 2) tienen la misma clase, pero diferentes hiperparámetros y, por lo tanto, pueden ajustarse por separado con los datos de entrenamiento y evaluarse entre sí. AutoML busca, o realiza un barrido, en diferentes clases de modelos y dentro de clases variando los hiperparámetros.

En la tabla siguiente se muestran los distintos métodos de barrido de hiperparámetros que AutoML usa para diferentes clases de modelo:

Grupo de clases de modelo Tipo de modelo Método de barrido de hiperparámetros
Naive, Seasonal Naive, Average, Seasonal Average Serie temporal Sin barrido dentro de la clase debido a la simplicidad del modelo
Exponential Smoothing, ARIMA(X) Serie temporal Búsqueda de cuadrícula para barrido dentro de la clase
Prophet Regresión Sin barrido dentro de la clase
Linear SGD, LARS LASSO, Elastic Net, K Nearest Neighbors, Decision Tree, Random Forest, Extremely Randomized Trees, Gradient Boosted Trees, LightGBM, XGBoost Regresión El servicio de recomendaciones de modelos de AutoML explora dinámicamente los espacios de hiperparámetro.
ForecastTCN Regresión Lista estática de modelos seguida de la búsqueda aleatoria sobre el tamaño de red, la relación de omisión y la velocidad de aprendizaje.

Para una descripción de los distintos tipos de modelo, consulte la sección Modelos de previsión del artículo de información general sobre métodos.

La cantidad de barrido que realiza AutoML depende de la configuración del trabajo de previsión. Puede especificar los criterios de detención como un límite de tiempo o un límite en el número de pruebas, o equivalentemente en el número de modelos. La lógica de terminación anticipada se puede usar en ambos casos para detener el barrido si la métrica principal no mejora.

Selección de modelos

La búsqueda y selección del modelo de previsión de AutoML continúa en las tres fases siguientes:

  1. Barrido sobre modelos de serie temporal y selección del mejor modelo de cada clase mediante métodos de probabilidad penalizados.
  2. Realice un barrido de los modelos de regresión y clasifíquelos, junto con los mejores modelos de serie temporal de la fase 1, según sus valores de métricas principales de los conjuntos de validación.
  3. Cree un modelo de ensamblado a partir de los modelos con clasificación superior, calcule su métrica de validación y clasifíquelo con los demás modelos.

El modelo con el valor de métrica con clasificación superior al final de la fase 3 se designa como el mejor modelo.

Importante

En la fase final de selección del modelo de AutoML siempre se calculan las métricas de los datos fuera de muestra. Es decir, los datos que no se usaron para ajustar los modelos. Esto ayuda a protegerse frente a ajustes excesivos.

AutoML tiene dos configuraciones de validación: datos de validación cruzada y de validación explícita. En el caso de la validación cruzada, AutoML usa la configuración de entrada para crear divisiones de datos en plegamientos de entrenamiento y validación. El orden temporal se debe conservar en estas divisiones, por lo que AutoML usa la llamada validación cruzada de origen gradual, que divide la serie en datos de entrenamiento y validación mediante un punto de tiempo de origen. Al deslizar el origen en el tiempo, se generan subconjuntos de validación cruzada. Cada plegamiento de validación contiene el siguiente horizonte de observaciones inmediatamente después de la posición del origen del plegamiento especificado. Esta estrategia conserva la integridad de los datos de serie temporal y elimina el riesgo de pérdida de información.

Diagrama que muestra los plegamientos de validación cruzada que separan los conjuntos de entrenamiento y validación en función del tamaño del paso de validación cruzada.

AutoML sigue el procedimiento de validación cruzada habitual: entrena un modelo distinto de cada plegamiento y calcula la media de las métricas de validación de todos los plegamientos.

La validación cruzada para los trabajos de previsión se configura estableciendo el número de plegamientos de validación cruzada y, opcionalmente, el número de períodos de tiempo entre dos plegamientos consecutivos de validación cruzada. En la guía de configuración de validación cruzada personalizada puede encontrar más información y un ejemplo de configuración de la validación cruzada para la previsión.

También puede traer sus propios datos de validación. Puede encontrar más información en el artículo Configuración de divisiones de datos y validación cruzada en AutoML (SDK v1).

Pasos siguientes