Ajuste de hiperparámetros

Databricks Runtime para Machine Learning incorpora Hyperopt, una herramienta de código abierto que automatiza el proceso de selección de modelos y ajuste de hiperparámetros.

Ajuste de hiperparámetros con Hyperopt

Databricks Runtime ML incluye Ray, un marco de código abierto que se especializa en el procesamiento de procesos paralelos para escalar flujos de trabajo de ML y aplicaciones de inteligencia artificial. Consulte Usar Ray en Azure Databricks.

Ajuste de hiperparámetros con Hyperopt

Databricks Runtime ML incluye Hyperopt, una biblioteca de Python que facilita el ajuste de hiperparámetros distribuido y la selección de modelos. Con Hyperopt, se puede examinar un conjunto de modelos de Python mientras se modifican los algoritmos y los hiperparámetros en los espacios que defina. Hyperopt funciona con algoritmos de Machine Learning distribuidos como Apache Spark MLlib y Horovod, así como con modelos de Machine Learning para un solo equipo, como scikit-Learn y TensorFlow.

Los pasos básicos cuando se usa Hyperopt son:

  1. Definir una función objetivo que se minimiza. Normalmente, se trata de la pérdida de entrenamiento o validación.
  2. Definir el espacio de búsqueda de hiperparámetros. Hyperopt proporciona un espacio de búsqueda condicional, que le permite comparar distintos algoritmos de Machine Learning en la misma ejecución.
  3. Especifique el algoritmo de búsqueda. Hyperopt usa algoritmos de ajuste estocástico que realizan una búsqueda más eficaz del espacio de hiperparámetros que una búsqueda determinista en la cuadrícula.
  4. Ejecute la función fmin() de Hyperopt. fmin() toma los elementos definidos en los pasos anteriores e identifica el conjunto de hiperparámetros que minimiza la función objetivo.

Para empezar a usar rápidamente Hyperopt con los algoritmos de scikit-learn, consulte:

Para más información sobre el funcionamiento de Hyperopt y para ver ejemplos adicionales, consulte:

Seguimiento de MLflow automatizado

Nota:

El seguimiento automatizado de MLflow de MLlib está en desuso y deshabilitado de forma predeterminada en clústeres que ejecutan Databricks Runtime 10.4 LTS ML y versiones posteriores. En su lugar, use el registro automático de MLflow PySpark ML mediante una llamada a mlflow.pyspark.ml.autolog(), que está habilitado de manera predeterminada con el registro automático de Databricks.

Para usar el seguimiento antiguo de MLflow automatizado de MLlib en Databricks Runtime 10.4 LTS ML y versiones posteriores, puede habilitarlo estableciendo las configuraciones de Sparkspark.databricks.mlflow.trackMLlib.enabled true y spark.databricks.mlflow.autologging.enabled false.