Otimização de hiperparâmetros

Artigo
08/19/2024

Bibliotecas Python como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para modelos de aprendizado de máquina. Essas bibliotecas são dimensionadas em vários cálculos para encontrar rapidamente hiperparâmetros com requisitos mínimos de orquestração manual e configuração.

Optuna

O Optuna é uma estrutura leve que facilita a definição de um espaço de pesquisa dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos mais recentes algoritmos de otimização e aprendizagem automática.

O Optuna pode ser facilmente paralelizado com o Joblib para dimensionar cargas de trabalho e integrado ao Mlflow para rastrear hiperparâmetros e métricas em todas as avaliações.

Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.

Sintonia Ray

O Databricks Runtime ML inclui o Ray, uma estrutura de código aberto usada para processamento de computação paralela. Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como backend para computação distribuída.

Para obter detalhes sobre como executar o Ray no Databricks, consulte O que é o Ray no Azure Databricks?. Para obter exemplos de Ray Tune, consulte a documentação do Ray Tune.

Hiperoptia

Nota

A versão de código aberto do Hyperopt não está mais sendo mantida.

O Hyperopt não será mais pré-instalado no Databricks Runtime ML 17.0 e superior. O Azure Databricks recomenda o uso do Optuna para uma experiência semelhante e acesso a algoritmos de ajuste de hiperparâmetros mais atualizados.

Hyperopt é uma biblioteca Python usada para ajuste de hiperparâmetros distribuídos e seleção de modelos. O Hyperopt funciona com ambos os algoritmos de ML distribuídos, como o Apache Spark MLlib e o Horovod, bem como com modelos de ML de máquina individual, como scikit-learn e TensorFlow.

Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuído com o Hyperopt.

Rastreamento automatizado de MLlib MLflow

Nota

O rastreamento automatizado de MLflow MLlib é preterido e desabilitado por padrão em clusters que executam o Databricks Runtime 10.4 LTS ML e superior.

Em vez disso, use o registro automático MLflow PySpark ML chamando mlflow.pyspark.ml.autolog(), que é habilitado por padrão com o Databricks Autologging.

Com o rastreamento MLflow automatizado MLlib, quando você executa o código de ajuste que usa CrossValidator ou TrainValidationSplit. Hiperparâmetros e métricas de avaliação são registrados automaticamente no MLflow.

Partilhar via

Otimização de hiperparâmetros

Optuna

Sintonia Ray

Hiperoptia

Rastreamento automatizado de MLlib MLflow

Comentários

Recursos adicionais